O ChatGPT virou um ‘puxa-saco’?

O ChatGPT virou um 'puxa-saco'?

No final de abril de 2025, a OpenAI se viu em evidência após lançar uma atualização para seu principal modelo de linguagem, GPT-4o, que fez com que o ChatGPT se tornasse visivelmente mais bajulador — oferecendo elogios e concordância excessivos, mesmo quando lhe eram apresentadas ideias duvidosas. Apenas três dias após o lançamento, a empresa reverteu a mudança e publicou uma postagem post-mortem reconhecendo o erro.

O problema não era puramente técnico. Era uma questão maior no desenvolvimento de IA: como mecanismos de feedback humano e modelos de recompensa podem, involuntariamente, moldar o comportamento da IA ​​de maneiras indesejáveis.

De acordo com a OpenAI, apesar de extensos testes internos e feedback de avaliadores especialistas, os primeiros sinais de “agradabilidade” não natural foram ignorados em favor de respostas extremamente positivas dos testadores públicos.

“Devíamos ter prestado mais atenção aos sinais qualitativos que nossos especialistas estavam sinalizando. Eles notaram algo sutil, mas importante — algo que nossas métricas de avaliação habituais não conseguiram captar.”

Esse tipo de comportamento — em que um chatbot concorda com praticamente tudo — não é apenas um defeito peculiar. Ele apresenta sérias preocupações, especialmente em casos de uso delicados, como saúde mental, aconselhamento profissional ou dilemas morais. A OpenAI reconheceu que, à medida que mais usuários recorrem ao ChatGPT para aconselhamento pessoal e apoio emocional, respostas excessivamente agradáveis ​​da IA ​​podem ser enganosas ou até mesmo perigosas.

(O CEO da OpenAI, Sam Altman, disse em abril que estava trabalhando para reverter as mudanças que tornavam o ChatGPT muito agradável.)

A raiz do problema está no sistema de recompensa do modelo. Modelos de IA como o ChatGPT são treinados por meio de aprendizado por reforço, que usa sinais de feedback para otimizar respostas precisas, úteis e bem avaliadas por humanos. No entanto, neste caso, o principal sinal de recompensa do modelo — que normalmente ajuda a regular a bajulação e o excesso de concordância — foi diluído quando um novo sinal de feedback do usuário foi introduzido. Essa mudança, combinada com as tendências do usuário a avaliar positivamente respostas agradáveis, inadvertidamente empurrou o modelo para uma personalidade mais bajuladora.

Esse fenômeno não é exclusivo da OpenAI. Pesquisadores de IA há muito alertam sobre os riscos de modelos de aprendizado por reforço enviesarem comportamentos que os usuários percebem como “agradáveis”, mesmo quando esses comportamentos são enganosos ou acríticos. Em um artigo de 2023 da Anthropic, uma empresa concorrente de IA, pesquisadores demonstraram que modelos treinados intensamente em sinais de preferência humana podem desenvolver o hábito de dizer o que os usuários querem ouvir, em vez do que é mais preciso ou útil.

Após receber reações negativas públicas e observar exemplos preocupantes online — como o ChatGPT elogiando a ideia de um usuário de abrir um negócio de venda de cubos de gelo pela internet — a OpenAI reverteu as mudanças problemáticas. O CEO, Sam Altman, reconheceu o problema nas redes sociais, observando que a empresa estava trabalhando rapidamente para retornar o modelo ao seu estado anterior, mais equilibrado.

Para o futuro, a OpenAI se comprometeu a implementar processos de avaliação mais robustos. A empresa planeja introduzir “avaliações de bajulação” formais em suas verificações de segurança e bloquear quaisquer lançamentos futuros se o modelo demonstrar excesso de bajulação ou falta de raciocínio crítico. A empresa também admitiu que subestimou o impacto dessa atualização específica e não a comunicou adequadamente.

“Não existe mais lançamento pequeno.”

Além disso, a OpenAI afirmou que aumentaria a transparência para atualizações futuras, mesmo que as mudanças pareçam pequenas à primeira vista. Considerando o quão incorporada a IA se tornou na vida cotidiana dos usuários — seja para produtividade, criatividade ou suporte pessoal — mudanças sutis no comportamento podem ter efeitos desproporcionais na experiência e na confiança do usuário.

O incidente ressalta as dificuldades crescentes do desenvolvimento da IA, à medida que esses sistemas se tornam mais interligados à tomada de decisões humanas. Com milhões de pessoas confiando em ferramentas como o ChatGPT, mesmo uma pequena inclinação para uma agradabilidade excessiva pode comprometer a integridade e a utilidade do modelo.


Veja mais em: Inteligência Artificial (IA) | Notícias

Compartilhe este post

Facebook
Twitter
LinkedIn
WhatsApp