Em resumo

  • A Wikimedia Foundation anunciou uma série de parcerias com empresas de IA para utilizar seu conteúdo no treinamento de LLMs.
  • As empresas de IA assinaram o produto Enterprise da fundação para reutilização em larga escala do conteúdo da Wikipedia.
  • Em outubro do ano passado, a fundação afirmou que o número de visitas ao site estava caindo porque as pessoas estavam utilizando resumos gerados por IA em vez de acessar o site.

A Wikimedia Foundation anunciou uma série de novas parcerias com empresas de inteligência artificial que permitirão que utilizem o conteúdo da Wikipedia para treinar e alimentar seus modelos de IA, enquanto a organização sem fins lucrativos busca fortalecer sua sustentabilidade a longo prazo em meio às mudanças de comportamento online.

Os acordos foram firmados por meio do Wikimedia Enterprise, o produto comercial da fundação projetado para grandes reutilizadores e distribuidores de conteúdo dos projetos Wikimedia. Novos inscritos incluem Ecosia, Microsoft, Mistral AI, Perplexity, Pleias e ProRata. Eles se juntam a parceiros já existentes como Amazon, Google e Meta.

“Na era da IA, a Wikipedia e seu conhecimento criado e curado por humanos nunca foram tão valiosos”, afirmou a fundação em um comunicado.

“Seu conhecimento alimenta chatbots generativos de IA, mecanismos de busca, assistentes de voz e muito mais. A Wikipedia é um dos conjuntos de dados de maior qualidade utilizados no treinamento de Large Language Models.”

O anúncio foi feito como parte de uma atualização ligada ao 25º aniversário da Wikipedia.

A enciclopédia online está entre os dez sites mais visitados do mundo e é o único desse grupo operado por uma organização sem fins lucrativos. Seus mais de 65 milhões de artigos, publicados em mais de 300 idiomas, são visualizados quase 15 bilhões de vezes a cada mês, de acordo com a fundação.

No entanto, a fundação alertou que os padrões de tráfego estão mudando. Em outubro, afirmou que as visitas humanas à Wikipedia caíram 8% em relação ao ano anterior, atribuindo a queda ao fato de que os usuários estão recorrendo a resumos gerados por IA em vez de visitar diretamente o site. Quase 60% das buscas no Google agora terminam sem um clique, com respostas na própria página frequentemente alimentadas por conteúdo da Wikipedia.

IA vs editoras

Os acordos surgem em meio a um debate mais amplo sobre como as empresas de IA obtêm dados para treinamento. Large Language Models geralmente são treinados com grandes volumes de material online, prática que vem sendo criticada por autores, editoras e outros detentores de direitos, que alegam que o uso de obras protegidas por direitos autorais sem permissão constitui infração.

Entre eles, o Reddit está envolvido em diversos processos com empresas de IA pelo uso de seu conteúdo no treinamento de modelos, embora tenha fechado acordos de licenciamento com empresas como o Google.

Na quinta-feira, grandes editoras de livros, como Hachette Book Group e Cengage Group, apresentaram uma moção para ingressar em uma ação coletiva já existente contra o Google, acusando a empresa de promover uma “infração histórica de direitos autorais” ao construir sua plataforma Gemini AI. O processo alega que o Google copiou livros sem as devidas licenças durante os processos de treinamento de IA. O caso foi originalmente aberto em 2023 por um grupo de autores.

A OpenAI enfrenta um caso semelhante movido por autores, incluindo George R.R. Martin, escritor de "Game of Thrones".

Empresas do setor de entretenimento também estão pressionando a questão. Em meados de dezembro, a Disney enviou ao Google uma carta de cessar e desistir acusando a empresa de infração de direitos autorais, mesmo tendo firmado um acordo de licenciamento separado com a OpenAI cobrindo centenas de personagens para vídeos gerados por IA. A Disney emitiu notificações semelhantes para outras empresas de IA e está envolvida em um litígio ao lado de grandes estúdios contra a empresa de geração de imagens Midjourney.

No mesmo mês, uma coalizão de roteiristas, atores e tecnólogos lançou um novo grupo do setor com o objetivo de pressionar por padrões obrigatórios sobre como a IA é treinada e utilizada no setor de entretenimento. Mais de 500 figuras proeminentes apoiaram a iniciativa, incluindo Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro e Taika Waititi.

A Comissão Europeia também abriu uma investigação formal antitruste para apurar se o Google violou as regras de concorrência da União Europeia ao utilizar conteúdo de editoras e do YouTube para alimentar seus serviços de IA sem compensação ou consentimento justos.

Ainda não está claro se os detentores de direitos autorais encontrarão uma solução definitiva. Juízes federais nos EUA recentemente deram vitórias parciais à Meta e à Anthropic, decidindo que o uso de livros protegidos por direitos autorais para treinar modelos de IA constitui uso justo, ao mesmo tempo em que criticaram as empresas por manterem bibliotecas permanentes de obras pirateadas.