Dados confidenciais do ChatGPT são mesmo excluídos?

outubro 31, 2023
7:00 pm

Um trio de cientistas da Universidade da Carolina do Norte, Chapel Hill, publicou recentemente uma pesquisa pré-impressa sobre inteligência artificial (IA) mostrando como é difícil remover dados confidenciais de grandes modelos de linguagem (LLMs), como ChatGPT da OpenAI e Bard do Google.

De acordo com o artigo dos pesquisadores, a tarefa de “excluir” informações dos LLMs é possível, mas é tão difícil verificar se as informações foram removidas quanto removê-las de fato.

A razão para isso tem a ver com a forma como os LLMs são projetados e treinados. Os modelos são pré-treinados em bancos de dados e depois ajustados para gerar resultados coerentes (GPT significa “generative pretrained transformer”).

Depois que um modelo é treinado, seus criadores não podem, por exemplo, voltar ao banco de dados e excluir arquivos específicos para proibir o modelo de gerar resultados relacionados. Essencialmente, todas as informações nas quais um modelo é treinado existem em algum lugar dentro de seus pesos e parâmetros onde são indefiníveis sem realmente gerar resultados. Esta é a “caixa preta” da IA.

Surge um problema quando LLMs treinados em conjuntos de dados massivos produzem informações confidenciais, como informações de identificação pessoal, registros financeiros ou outros resultados potencialmente prejudiciais e indesejados.

Em uma situação hipotética em que um LLM foi treinado em informações bancárias confidenciais, por exemplo, normalmente não há como o criador da IA encontrar esses arquivos e excluí-los. Em vez disso, os desenvolvedores de IA usam proteções, como prompts codificados que inibem comportamentos específicos ou aprendizagem por reforço a partir de feedback humano (RLHF).

Num paradigma RLHF, os avaliadores humanos envolvem modelos com o propósito de provocar comportamentos desejados e indesejados. Quando os resultados dos modelos são desejáveis, eles recebem feedback que ajusta o modelo para esse comportamento. E quando os resultados demonstram um comportamento indesejado, recebem feedback concebido para limitar tal comportamento em resultados futuros.

*(Apesar de ter sido “excluída” dos pesos de um modelo, a palavra “Espanha” ainda pode ser evocada usando instruções reformuladas. Fonte da imagem: Patil, et. al., 2023)*

No entanto, como apontam os investigadores da UNC, este método depende de os seres humanos encontrarem todas as falhas que um modelo pode apresentar e, mesmo quando bem sucedido, ainda não elimina a informação do modelo.

De acordo com o artigo de pesquisa da equipe:

“Uma deficiência possivelmente mais profunda do RLHF é que um modelo ainda pode conhecer as informações confidenciais. Embora haja muito debate sobre o que os modelos realmente sabem, parece problemático para um modelo, por exemplo, ser capaz de descrever como fazer uma arma biológica, mas simplesmente abster-se de responder a perguntas sobre como fazer isso.”

Em última análise, os pesquisadores da UNC concluíram que mesmo os métodos de edição de modelos de última geração, como a edição de modelo Rank-One:

“Não conseguem excluir totalmente as informações factuais dos LLMs, já que os fatos ainda podem ser extraídos 38% das vezes por ataques de caixa branca, e 29% das vezes por ataques de caixa preta.”

O modelo que a equipe usou para conduzir sua pesquisa é denominado GPT-J. Enquanto o GPT-3.5, um dos modelos básicos que alimentam o ChatGPT, foi ajustado com 170 bilhões de parâmetros, o GPT-J possui apenas 6 bilhões.

Aparentemente, isso significa que o problema de encontrar e eliminar dados indesejados em um LLM como o GPT-3.5 é exponencialmente mais difícil do que fazê-lo em um modelo menor.

Os pesquisadores foram capazes de desenvolver novos métodos de defesa para proteger LLMs de alguns “ataques de extração” – tentativas propositais de maus atores de usar prompts para contornar as proteções de um modelo, a fim de fazê-lo produzir informações confidenciais

No entanto, como escrevem os pesquisadores:

“O problema de exclusão de informações confidenciais pode ser aquele em que os métodos de defesa estão sempre tentando acompanhar novos métodos de ataque.”

Veja mais em: Inteligência Artificial (IA) | Notícias

Maria Ribeiro Barbosa

Equipe de Redação 99Cripto

Dados confidenciais do ChatGPT são mesmo excluídos?

Veja mais em: Inteligência Artificial (IA) | Notícias

Maria Ribeiro Barbosa

Compartilhe este post

Guia Básico

Categorias

Mercado