Dados confidenciais do ChatGPT são mesmo excluídos?

Dados confidenciais do ChatGPT são mesmo excluídos?

Um trio de cientistas da Universidade da Carolina do Norte, Chapel Hill, publicou recentemente uma pesquisa pré-impressa sobre inteligência artificial (IA) mostrando como é difícil remover dados confidenciais de grandes modelos de linguagem (LLMs), como ChatGPT da OpenAI e Bard do Google.

De acordo com o artigo dos pesquisadores, a tarefa de “excluir” informações dos LLMs é possível, mas é tão difícil verificar se as informações foram removidas quanto removê-las de fato.

A razão para isso tem a ver com a forma como os LLMs são projetados e treinados. Os modelos são pré-treinados em bancos de dados e depois ajustados para gerar resultados coerentes (GPT significa “generative pretrained transformer”).

Depois que um modelo é treinado, seus criadores não podem, por exemplo, voltar ao banco de dados e excluir arquivos específicos para proibir o modelo de gerar resultados relacionados. Essencialmente, todas as informações nas quais um modelo é treinado existem em algum lugar dentro de seus pesos e parâmetros onde são indefiníveis sem realmente gerar resultados. Esta é a “caixa preta” da IA.

Surge um problema quando LLMs treinados em conjuntos de dados massivos produzem informações confidenciais, como informações de identificação pessoal, registros financeiros ou outros resultados potencialmente prejudiciais e indesejados.

Em uma situação hipotética em que um LLM foi treinado em informações bancárias confidenciais, por exemplo, normalmente não há como o criador da IA encontrar esses arquivos e excluí-los. Em vez disso, os desenvolvedores de IA usam proteções, como prompts codificados que inibem comportamentos específicos ou aprendizagem por reforço a partir de feedback humano (RLHF).

Num paradigma RLHF, os avaliadores humanos envolvem modelos com o propósito de provocar comportamentos desejados e indesejados. Quando os resultados dos modelos são desejáveis, eles recebem feedback que ajusta o modelo para esse comportamento. E quando os resultados demonstram um comportamento indesejado, recebem feedback concebido para limitar tal comportamento em resultados futuros.

(Apesar de ter sido “excluída” dos pesos de um modelo, a palavra “Espanha” ainda pode ser evocada usando instruções reformuladas. Fonte da imagem: Patil, et. al., 2023)

No entanto, como apontam os investigadores da UNC, este método depende de os seres humanos encontrarem todas as falhas que um modelo pode apresentar e, mesmo quando bem sucedido, ainda não elimina a informação do modelo.

De acordo com o artigo de pesquisa da equipe:

“Uma deficiência possivelmente mais profunda do RLHF é que um modelo ainda pode conhecer as informações confidenciais. Embora haja muito debate sobre o que os modelos realmente sabem, parece problemático para um modelo, por exemplo, ser capaz de descrever como fazer uma arma biológica, mas simplesmente abster-se de responder a perguntas sobre como fazer isso.”

Em última análise, os pesquisadores da UNC concluíram que mesmo os métodos de edição de modelos de última geração, como a edição de modelo Rank-One:

“Não conseguem excluir totalmente as informações factuais dos LLMs, já que os fatos ainda podem ser extraídos 38% das vezes por ataques de caixa branca, e 29% das vezes por ataques de caixa preta.”

O modelo que a equipe usou para conduzir sua pesquisa é denominado GPT-J. Enquanto o GPT-3.5, um dos modelos básicos que alimentam o ChatGPT, foi ajustado com 170 bilhões de parâmetros, o GPT-J possui apenas 6 bilhões.

Aparentemente, isso significa que o problema de encontrar e eliminar dados indesejados em um LLM como o GPT-3.5 é exponencialmente mais difícil do que fazê-lo em um modelo menor.

Os pesquisadores foram capazes de desenvolver novos métodos de defesa para proteger LLMs de alguns “ataques de extração” – tentativas propositais de maus atores de usar prompts para contornar as proteções de um modelo, a fim de fazê-lo produzir informações confidenciais

No entanto, como escrevem os pesquisadores:

“O problema de exclusão de informações confidenciais pode ser aquele em que os métodos de defesa estão sempre tentando acompanhar novos métodos de ataque.”

Veja mais em: Inteligência Artificial (IA) | Notícias

Compartilhe este post

Facebook
Twitter
LinkedIn
WhatsApp