The New York Times / vs. / OpenAI

fevereiro 25, 2024
11:00 am

Quando um sistema generativo de inteligência artificial (IA) produz algo surpreendentemente semelhante aos dados nos quais foi treinado, isso é uma violação de direitos autorais ou um bug no sistema? Esta é a questão central do recente processo do The New York Times contra o fabricante do ChatGPT, OpenAI.

O New York Times alega que a OpenAI usou mais conteúdo do site do NYT para treinar seus modelos de IA do que quase qualquer outra fonte proprietária – com apenas a Wikipedia e conjuntos de dados contendo documentos de patentes dos Estados Unidos superando-o.

A OpenAI afirma que o treinamento em dados protegidos por direitos autorais é uso justo.

We build AI to empower people, including journalists.
Our position on the @nytimes lawsuit:
• Training is fair use, but we provide an opt-out
• "Regurgitation" is a rare bug we're driving to zero
• The New York Times is not telling the full storyhttps://t.co/S6fSaDsfKb
— OpenAI (@OpenAI) January 8, 2024

O processo poderia ser resolvido fora do tribunal; pode terminar em danos, demissão ou uma infinidade de outros resultados. Mas, para além do alívio financeiro ou das medidas cautelares (que podem ser consideradas temporárias, pendentes de recurso ou acionadas após recurso mal sucedido), as ramificações poderão afetar a sociedade dos EUA em geral, com potencial impacto global para além.

Em primeiro lugar, se os tribunais decidissem a favor da OpenAI que a formação de sistemas de IA em material protegido por direitos de autor é uma utilização justa, poderia ter um impacto substancial no sistema jurídico dos EUA.

Como Mike Cook, professor sênior do King’s College, escreveu recentemente:

“Se você usou IA para responder e-mails ou resumir o trabalho para você, poderá ver o ChatGPT como um fim que justifica os meios. No entanto, talvez devêssemos preocupar-nos se a única forma de conseguir isso é isentar entidades corporativas específicas de leis que se aplicam a todas as outras.”

O New York Times argumenta que tal isenção representaria uma clara ameaça ao seu modelo de negócio.

A OpenAI admitiu que o ChatGPT tem um bug em que ocasionalmente exibe passagens de texto com semelhanças impressionantes com obras existentes protegidas por direitos autorais. De acordo com o NYT, isso poderia servir para contornar os acessos pagos, privar a empresa de receitas publicitárias e afetar sua capacidade de desempenhar suas funções principais.

Se a OpenAI fosse autorizada a continuar a formação em material protegido por direitos de autor sem restrições, os impactos a longo prazo para o The New York Times e quaisquer outros meios de comunicação cujo trabalho pudesse ser usado para treinar sistemas de IA poderiam ser catastróficos, de acordo com o processo.

O mesmo poderia ser dito de outros campos onde o material protegido por direitos autorais gera lucros, incluindo cinema, televisão, música, literatura e outras formas de mídia impressa.

Por outro lado, em documentos apresentados ao comitê digital e de comunicações da Câmara dos Lordes do Reino Unido, a OpenAI disse:

“Seria impossível treinar os principais modelos de IA da atualidade sem usar materiais protegidos por direitos autorais. Limitar os dados de formação a livros e desenhos de domínio público criados há mais de um século poderia render uma experiência interessante, mas não forneceria sistemas de IA que atendessem às necessidades dos cidadãos de hoje.”

Para complicar ainda mais as coisas, pode ser difícil chegar a um acordo. A OpenAI tomou medidas para impedir que o ChatGPT e outros produtos produzissem material protegido por direitos autorais, mas não há garantias tecnológicas de que não continuará a fazê-lo.

Modelos de IA como ChatGPT são chamados de sistemas de “caixa preta”. Isso ocorre porque os desenvolvedores que os criam não têm como saber exatamente por que o sistema gera suas saídas.

Por causa dessa caixa preta e do método pelo qual grandes modelos de linguagem, como ChatGPT, são treinados, não há como excluir os dados do The New York Times ou de qualquer outro detentor de direitos autorais depois que um modelo for treinado.

Com base na tecnologia e nos métodos atuais, há uma chance significativa de que o OpenAI teria que excluir o ChatGPT e começar do zero se fosse totalmente proibido de usar material protegido por direitos autorais. Em última análise, isto pode revelar-se demasiado caro e ineficiente para valer a pena.

A OpenAI espera lidar com isso oferecendo parcerias com organizações de notícias e mídia, juntamente com a promessa de continuar o trabalho para eliminar o bug.

O pior cenário para o campo da inteligência artificial seria perder a capacidade de monetizar modelos treinados em materiais protegidos por direitos autorais. Embora isto não afete necessariamente, por exemplo, esforços relacionados com carros autónomos ou sistemas de IA utilizados para realizar simulações de supercomputadores, poderia tornar ilegal a introdução no mercado de produtos generativos como o ChatGPT.

E, quando se trata de detentores de direitos autorais, o pior caso seria uma declaração judicial de que o material protegido por direitos autorais pode ser usado gratuitamente para treinar sistemas de IA.

Isto, teoricamente, poderia dar às empresas de IA liberdade para redistribuir materiais protegidos por direitos autorais ligeiramente modificados, ao mesmo tempo que responsabilizaria legalmente os usuários finais por quaisquer casos em que as modificações não atendam aos requisitos legais para evitar a violação de direitos autorais.

Veja mais em: Inteligência Artificial (IA) | Notícias

Maria Ribeiro Barbosa

Equipe de Redação 99Cripto

The New York Times / vs. / OpenAI

Veja mais em: Inteligência Artificial (IA) | Notícias

Maria Ribeiro Barbosa

Compartilhe este post

Guia Básico

Categorias

Mercado