Кратко
- Hachette Book Group и Cengage Group в четверг обратились в федеральный суд Калифорнии с ходатайством о вмешательстве в коллективный иск, обвиняющий Google в нарушении авторских прав при обучении ИИ.
- Издательства утверждают, что Google скачивал их книги с пиратских сайтов, включая Z-Library и OceanofPDF, а затем неоднократно копировал их во время обучения своих моделей.
- По утверждению издателей, обучающий датасет Google C4 использует данные как минимум с 28 сайтов, связанных с пиратством, при этом символ авторского права встречается более 200 миллионов раз.
Крупные издательства Hachette Book Group и Cengage Group подали в четверг ходатайство о вмешательстве в уже существующий коллективный иск, поданный в прошлом году против Google, обвиняя технологического гиганта в организации «исторического нарушения авторских прав» для построения своей платформы Gemini.
В жалобе, поданной в федеральный суд Калифорнии, утверждается, что Google «предпочёл украсть огромное количество контента у Истцов и Класса для обучения своей модели ИИ», вместо того чтобы получить соответствующие лицензии, совершая умышленное нарушение «на каждом этапе» разработки.
Консолидированное дело изначально было подано в 2023 году отдельными авторами в качестве предполагаемого коллективного иска по авторскому праву, обвиняющего Google в копировании книг для обучения своих генеративных моделей ИИ.
Издатели утверждают, что Google скачивал книги с пиратских сайтов, а затем многократно копировал их в процессе обучения ИИ: сначала в память компьютера, затем в форматы, которые могли читать системы ИИ, и снова — в обучающие наборы данных для каждой новой версии модели.
В иске утверждается, что обучающий датасет Google C4 содержит защищённые авторским правом произведения, собранные с Z-Library, пиратской коллекции, у которой власти изъяли более 350 сайтов и доменов.
Издатели отмечают, что книги копировались с b-ok.org, домена Z-Library, который теперь отображает уведомление о федеральной конфискации, а также с OceanofPDF и WeLib, «ещё одного известного сайта с доступом к массивам нелегального контента, защищённого авторским правом».
В жалобе отмечается, что датасет C4 содержит произведения как минимум с 28 сайтов, которые правительство США определяет как рынки пиратства и подделок.
«Символ авторского права (©) встречается более 200 миллионов раз в датасете C4», — говорится в жалобе, при этом утверждается, что Google якобы исключил «уведомления о политике» и предупреждения «об условиях использования», но включил «огромные категории защищённых авторским правом работ, пиратских произведений и материалов, размещённых за платным доступом».
Издатели заявляют, что Google копировал произведения из библиотек по подписке, таких как Scribd.com, обходя легальные лицензионные соглашения.
Когда их спросили об этой практике, некоммерческий поставщик датасетов Common Crawl якобы ответил подходом «обвинения жертвы», заявив: «Не стоило размещать свой контент в интернете, если вы не хотели, чтобы он там был».
В иске утверждается, что Gemini теперь выдаёт результаты, которые «заменяют защищённые авторским правом работы», включая дословные воспроизведения, подробные резюме и «подделки, копирующие творческие элементы оригинальных произведений».
ИИ и издатели
Google одновременно защищается от антимонопольных претензий со стороны Penske Media Corporation по поводу своей функции AI Overviews, утверждая, что отображение сгенерированных ИИ резюме является «законным улучшением продукта, а не антиконкурентным поведением».
Издатели требуют выплаты установленной законом компенсации, издания судебного запрета на дальнейшие нарушения и приказа, обязывающего Google уничтожить все несанкционированные копии их работ и раскрыть, какие книги использовались для обучения Gemini.
Ходатайство о вмешательстве последовало за серией исков по авторскому праву, которые авторы подали против компаний ИИ в 2023 году; федеральные судьи вынесли частичные победы для Meta и Anthropic, признав, что использование ими книг, защищённых авторским правом, для обучения своих моделей является добросовестным использованием по закону об авторском праве, но раскритиковали компании за поддержание постоянных библиотек пиратских книг.

