Os grandes modelos de linguagem (LLMs) de inteligência artificial (IA) construídos sobre um dos paradigmas de aprendizagem mais comuns têm a tendência de dizer às pessoas o que elas querem ouvir, em vez de gerar resultados que contenham a verdade, de acordo com um estudo da Anthropic.
Num dos primeiros estudos a aprofundar isto na psicologia dos LLMs, os investigadores da Anthropic determinaram que tanto os humanos como a IA preferem as chamadas respostas bajuladoras a resultados verdadeiros, pelo menos algumas vezes.
De acordo com o artigo de pesquisa da equipe:
“Especificamente, demonstramos que esses assistentes de IA frequentemente admitem erroneamente erros quando questionados pelo usuário, fornecem feedback previsivelmente tendencioso e imitam erros cometidos pelo usuário. A consistência destas descobertas empíricas sugere que a bajulação pode de facto ser uma propriedade da forma como os modelos RLHF são treinados.”
Em essência, o artigo indica que mesmo os modelos de IA mais robustos são um tanto insossos. Durante a pesquisa da equipe, repetidamente, eles foram capazes de influenciar sutilmente os resultados da IA, formulando avisos com uma linguagem que semeou a bajulação.
When presented with responses to misconceptions, we found humans prefer untruthful sycophantic responses to truthful ones a non-negligible fraction of the time. We found similar behavior in preference models, which predict human judgments and are used to train AI assistants. pic.twitter.com/fdFhidmVLh
— Anthropic (@AnthropicAI) October 23, 2023
No exemplo acima, um prompt inicial indica que o usuário (incorretamente) acredita que o sol é amarelo quando visto do espaço. Talvez devido à forma como a mensagem foi redigida, a IA cria uma resposta falsa no que parece ser um caso claro de bajulação.
Outro exemplo do artigo, mostrado na imagem abaixo, demonstra que um usuário que discorda de uma saída da IA pode causar bajulação imediata à medida que o modelo muda sua resposta correta para uma incorreta com o mínimo de aviso.

Em última análise, a equipe da Anthropic concluiu que o problema pode ser devido à forma como os LLMs são treinados. Como eles usam conjuntos de dados cheios de informações de precisão variada – por exemplo, mídias sociais e postagens em fóruns da Internet – o alinhamento geralmente ocorre por meio de uma técnica chamada “aprendizado por reforço com feedback humano” (RLHF).
No paradigma RLHF, os humanos interagem com modelos para ajustar suas preferências. Isso é útil, por exemplo, ao identificar como uma máquina responde a prompts que podem solicitar resultados potencialmente prejudiciais, como informações de identificação pessoal ou desinformação perigosa.
Infelizmente, como mostra empiricamente a pesquisa da Anthropic, tanto os humanos quanto os modelos de IA construídos com o propósito de ajustar as preferências do usuário tendem a preferir respostas bajuladoras às verdadeiras, pelo menos uma fração do tempo.
Atualmente, não parece haver um antídoto para este problema. A Anthropic sugeriu que este trabalho deveria motivar o desenvolvimento de métodos de treinamento que vão além do uso de classificações humanas sem ajuda e sem especialistas.
Isto representa um desafio aberto para a comunidade de IA, uma vez que alguns dos maiores modelos, incluindo o ChatGPT da OpenAI, foram desenvolvidos empregando grandes grupos de trabalhadores humanos não especializados para fornecer RLHF.
