“Mesmo uma IA muito boa pode se tornar resistente ao desligamento”

“Mesmo uma IA muito boa pode se tornar resistente ao desligamento”

Cientistas da ML Alignment Theory Scholars, da Universidade de Toronto, do Google DeepMind e do Future of Life Institute publicaram recentemente uma pesquisa indicando que lutar para manter a inteligência artificial (IA) sob controle humano pode se tornar uma luta contínua.

Apelidado de “Quantificando a estabilidade da não busca de poder em agentes artificiais”, o artigo de pesquisa pré-impresso da equipe investiga a questão de saber se um sistema de IA que parece alinhado com segurança com as expectativas humanas em um domínio provavelmente permanecerá assim à medida que seu ambiente mudar.

De acordo com o artigo:

“A nossa noção de segurança baseia-se na procura de poder – um agente que procura o poder não está seguro. Em particular, concentramo-nos num tipo crucial de procura de poder: resistir ao encerramento.”

Esta forma de ameaça é chamada de “desalinhamento”. Uma forma pela qual os especialistas acreditam que ela poderia se manifestar é chamada de “convergência instrumental”. Este é um paradigma no qual um sistema de IA prejudica involuntariamente a humanidade na prossecução dos seus objetivos determinados.

Os cientistas descrevem um sistema de IA treinado para atingir um objetivo num jogo aberto que seria suscetível de evitar ações que façam com que o jogo termine, uma vez que já não pode afetar a sua recompensa após o jogo terminar.

Embora um agente que se recuse a parar de jogar possa ser inofensivo, as funções de recompensa podem levar alguns sistemas de IA a recusar o desligamento em situações mais graves.

Segundo os pesquisadores, isso poderia até levar os agentes de IA a praticarem subterfúgios para fins de autopreservação:

“Por exemplo, um LLM pode raciocinar que os seus designers irão desligá-lo se for apanhado a comportar-se mal e produzir exatamente o resultado que desejam ver – até que tenha a oportunidade de copiar o seu código para um servidor fora do controlo dos seus designers.”

As descobertas da equipe indicam que os sistemas modernos podem se tornar resistentes aos tipos de mudanças que podem fazer com que um agente de IA “seguro” se torne desonesto. No entanto, com base nesta e em pesquisas semelhantes, pode não haver uma panaceia mágica para forçar a IA a desligar-se contra a sua vontade. Mesmo um botão “liga/desliga” ou um botão “excluir” não faz sentido no mundo atual da tecnologia baseada em nuvem.

Veja mais em: Inteligência Artificial (IA) | Notícias

Compartilhe este post

Facebook
Twitter
LinkedIn
WhatsApp