In sintesi

  • Hachette Book Group e Cengage Group hanno chiesto giovedì a un tribunale federale della California di intervenire in un'azione collettiva che accusa Google di violazione del copyright nell'addestramento dell'IA.
  • Gli editori sostengono che Google abbia scaricato i loro libri da siti pirata, tra cui Z-Library e OceanofPDF, per poi copiarli ripetutamente durante l'addestramento dei suoi modelli.
  • Il dataset di addestramento C4 di Google attingerebbe da almeno 28 siti collegati alla pirateria, con il simbolo del copyright che appare oltre 200 milioni di volte.

I principali editori Hachette Book Group e Cengage Group hanno presentato giovedì una mozione per intervenire in una causa collettiva già esistente presentata lo scorso anno contro Google, accusando il colosso tecnologico di aver orchestrato una “violazione storica del copyright” per costruire la sua piattaforma Gemini.

La denuncia presentata presso il tribunale federale della California sostiene che Google "ha scelto di rubare una enorme quantità di contenuti dai Querelanti e dalla Classe per addestrare il suo modello di IA" invece di ottenere le dovute licenze, impegnandosi in una violazione deliberata "a ogni fase" dello sviluppo.

Il caso consolidato è stato originariamente presentato nel 2023 da autori individuali come proposta di azione collettiva per violazione del copyright, accusando Google di aver copiato libri per addestrare i suoi modelli di IA generativa.

Gli editori affermano che Google abbia scaricato libri da siti pirata e li abbia poi copiati ripetutamente durante il processo di addestramento dell'IA, prima nella memoria del computer, poi in formati leggibili dai sistemi di IA, e ancora nei set di addestramento per ogni nuova versione del modello.

Secondo la denuncia, il dataset di addestramento C4 di Google contiene opere protette da copyright estratte da Z-Library, una raccolta pirata da cui le autorità hanno sequestrato oltre 350 siti web e domini.

Gli editori hanno evidenziato come i libri siano stati copiati da b-ok.org, un dominio di Z-Library che ora mostra un avviso di sequestro federale, insieme a OceanofPDF e WeLib, "un altro sito prolifico con accesso a grandi quantità di contenuti protetti da copyright non autorizzati."

Il dataset C4 contiene opere provenienti da almeno 28 siti identificati dal governo degli Stati Uniti come mercati per pirateria e contraffazioni, si legge nella denuncia.

"Il simbolo del copyright (©) appare più di 200 milioni di volte nel dataset C4", si legge nella denuncia, sottolineando che Google avrebbe escluso "avvisi politici" e avvertenze sulle "condizioni d'uso", ma incluso "ampie categorie di opere protette da copyright, opere pirata e opere prelevate da dietro i paywall."

Gli editori sostengono che Google abbia copiato opere da biblioteche a pagamento come Scribd.com, aggirando accordi di licenza legittimi.

Quando sono stati confrontati su questa pratica, il fornitore di dataset nonprofit Common Crawl avrebbe risposto con "una mentalità che incolpa la vittima, proclamando 'Non avresti dovuto mettere i tuoi contenuti su internet se non volevi che fossero su internet.'"

La causa sostiene che ora Gemini produce output che "sostituiscono le opere protette da copyright", incluse riproduzioni letterali, riassunti dettagliati e "imitazioni che copiano elementi creativi delle opere originali."

Decrypt
ha contattato Google e i legali degli editori.

IA ed editori

Google si sta contemporaneamente difendendo da accuse antitrust da parte di Penske Media Corporation riguardo alla sua funzione AI Overviews, sostenendo che la visualizzazione di riassunti generati dall'IA costituisce "un miglioramento del prodotto legittimo piuttosto che un comportamento anticoncorrenziale."

Gli editori chiedono danni statuari, ingiunzioni per fermare ulteriori violazioni e un ordine che obblighi Google a distruggere tutte le copie non autorizzate delle loro opere e a rivelare quali libri siano stati utilizzati per addestrare Gemini.

La mozione di intervento segue una serie di cause per violazione del copyright intentate dagli autori contro aziende di IA nel 2023, con giudici federali che hanno concesso vittorie parziali a Meta e Anthropic, stabilendo che il loro uso di libri protetti da copyright per addestrare i modelli costituisse fair use secondo la legge sul copyright, ma criticando le aziende per il mantenimento di librerie permanenti di libri pirata.