Recentemente, a OpenAI anunciou seus esforços para aprimorar os recursos de resolução de problemas matemáticos do ChatGPT, com o objetivo de reduzir os casos de alucinações de inteligência artificial (IA). A OpenAI enfatizou a mitigação das alucinações como um passo crucial para o desenvolvimento da IA alinhada.
Em março, a introdução da versão mais recente do ChatGPT – o ChatGPT-4 – impulsionou ainda mais a IA para o mainstream. No entanto, os chatbots de IA generativa há muito lutam com precisão factual, ocasionalmente gerando informações falsas, comumente chamadas de “alucinações”. Os esforços para reduzir essas alucinações de IA foram anunciados por meio de uma postagem no site da OpenAI.
As alucinações de IA referem-se a casos em que os sistemas de inteligência artificial geram saídas factualmente incorretas, enganosas ou sem suporte de dados do mundo real. Essas alucinações podem se manifestar de várias formas, como gerar informações falsas, inventar eventos ou pessoas inexistentes ou fornecer detalhes imprecisos sobre determinados tópicos.
A OpenAI realizou uma pesquisa para examinar a eficácia de dois tipos de feedback: “supervisão de resultados” e “supervisão de processos”.
A supervisão de resultados envolve feedback com base no resultado final, enquanto a supervisão de processos fornece informações para cada etapa de uma cadeia de pensamento. A OpenAI avaliou esses modelos usando problemas matemáticos, gerando várias soluções e selecionando a solução mais bem classificada de acordo com cada modelo de feedback.
Após uma análise minuciosa, a equipe de pesquisa descobriu que a supervisão do processo produzia um desempenho superior, pois incentivava o modelo a aderir a um processo aprovado por humanos. Em contraste, a supervisão de resultados provou ser mais desafiadora para examinar de forma consistente.
A OpenAI reconheceu que as implicações da supervisão de processos vão além da matemática, sendo necessárias mais investigações para entender seus efeitos em diferentes domínios. Expressou a possibilidade de que, se os resultados observados se mantivessem em contextos mais amplos, a supervisão de processos poderia oferecer uma combinação favorável de desempenho e alinhamento em comparação com a supervisão de resultados. Para facilitar a pesquisa, a empresa divulgou publicamente o conjunto de dados completo da supervisão do processo, convidando à exploração e estudo nessa área.
Embora a OpenAI não tenha fornecido exemplos explícitos que levaram à sua investigação sobre alucinações, duas ocorrências recentes exemplificaram o problema em cenários da vida real.
Em um incidente recente, o advogado Steven Schwartz, no caso Mata vs. Avianca Airlines reconheceu confiar no chatbot como um recurso de pesquisa. No entanto, as informações fornecidas pelo ChatGPT acabaram sendo totalmente fabricadas, destacando o problema em questão.
O ChatGPT da OpenAI não é o único exemplo de sistemas de inteligência artificial que encontram alucinações. Durante uma demonstração de sua tecnologia de chatbot em março, o chatbot Bing AI da Microsoft examinou relatórios de ganhos e gerou números imprecisos para empresas como Gap e Lululemon.
