Sa madaling sabi
- Hachette Book Group at Cengage Group ay humiling sa isang pederal na hukuman sa California nitong Huwebes na makialam sa isang class action na nag-aakusa sa Google ng paglabag sa copyright sa AI training.
- Inaakusahan ng mga publisher ang Google na nag-download ng kanilang mga libro mula sa mga piratang site, kabilang ang Z-Library at OceanofPDF, at paulit-ulit na kinopya ang mga ito habang tine-train ang mga modelo nito.
- Ang C4 training dataset ng Google ay umano'y kumukuha mula sa hindi bababa sa 28 na website na kaugnay sa piracy, kung saan ang copyright symbol ay lumilitaw nang higit sa 200 milyon beses.
Ang mga pangunahing publisher ng libro na Hachette Book Group at Cengage Group ay naghain ng mosyon nitong Huwebes upang makialam sa kasalukuyang class action lawsuit na isinampa noong nakaraang taon laban sa Google, na nag-aakusa sa higanteng teknolohiya ng pagsasagawa ng “makasaysayang paglabag sa copyright” upang buuin ang Gemini platform nito.
Ang reklamo na inihain sa pederal na hukuman sa California ay nagsasaad na ang Google ay "piniling nakawin ang napakalaking dami ng nilalaman mula sa mga Nagrereklamo at ng Klase upang gamitin sa AI model training" sa halip na kumuha ng tamang lisensya, at sadyang lumabag sa bawat yugto ng pag-develop.
Ang pinagsamang kaso ay orihinal na isinampa noong 2023 ng mga indibidwal na may-akda bilang isang proposed copyright class action na inaakusahan ang Google ng pagkopya ng mga libro upang gamitin sa pag-train ng generative AI models nito.
Ayon sa mga publisher, nag-download ang Google ng mga libro mula sa mga piratang site at paulit-ulit na kinopya ang mga ito sa proseso ng AI training—una sa computer memory, pagkatapos ay sa mga format na kaya basahin ng AI systems, at muli sa training sets para sa bawat bagong bersyon ng modelo.
Ang C4 training dataset ng Google ay naglalaman ng mga copyrighted na gawa na kinuha mula sa Z-Library, isang piratang koleksyon kung saan nasamsam ng mga awtoridad ang higit sa 350 na website at web domain, ayon sa demanda.
Ipinunto ng mga publisher kung paano kinopya ang mga libro mula sa b-ok.org, isang Z-Library domain na ngayon ay nagpapakita na ng federal seizure notice, maging mula sa OceanofPDF at WeLib, “isa pang prolific na site na may access sa napakaraming hindi awtorisadong copyrighted na nilalaman.”
Ang C4 dataset ay naglalaman ng mga gawa mula sa hindi bababa sa 28 na site na kinilala ng gobyerno ng U.S. bilang mga merkado ng piracy at pekeng produkto, ayon sa reklamo.
"Ang copyright symbol (©) ay lumilitaw nang higit sa 200 milyon beses sa C4 dataset," ayon sa reklamo, na binabanggit ding umano'y inalis ng Google ang “policy notices” at “terms of use” warnings ngunit isinama ang “malalaking kategorya ng copyrighted na gawa, pirated na nilalaman, at mga gawa na kinuha mula sa likod ng paywalls.”
Inaakusahan ng mga publisher na kinopya ng Google ang mga gawa mula sa mga subscription-based na library tulad ng Scribd.com, na nilalampasan ang lehitimong licensing agreements.
Nang harapin ukol sa gawaing ito, umano'y sumagot ang nonprofit dataset provider na Common Crawl ng may “pagsisi sa biktima,” at sinabing “Hindi mo dapat inilagay ang iyong nilalaman sa internet kung ayaw mong mapunta ito sa internet.”
Ayon sa demanda, ngayon ay nagpo-produce ang Gemini ng mga output na “pumapalit sa copyrighted na gawa”—kabilang ang eksaktong pagkopya, detalyadong buod, at “knockoffs na kumokopya sa malikhaing bahagi ng orihinal na mga gawa.”
AI at mga publisher
Sabay-sabay na ipinagtatanggol ng Google ang sarili nito laban sa antitrust claims mula sa Penske Media Corporation kaugnay ng AI Overviews feature nito, kung saan iginiit ng higanteng teknolohiya na ang pagpapakita ng AI-generated na mga buod ay “lehitimong pagpapabuti ng produkto at hindi anti-competitive na asal.”
Hiniling ng mga publisher ang statutory damages, mga injunction upang pigilan ang karagdagang paglabag, at isang kautusan na obligahin ang Google na sirain ang lahat ng hindi awtorisadong kopya ng kanilang mga gawa at isiwalat kung aling mga libro ang ginamit sa pag-train ng Gemini.
Ang mosyon upang makialam ay kasunod ng serye ng mga copyright lawsuit na isinampa ng mga may-akda laban sa mga AI company noong 2023, kung saan nagbigay ang mga pederal na hukom ng bahagyang tagumpay sa Meta at Anthropic, na nagpasya na ang paggamit nila ng copyrighted na mga libro para sa AI model training ay saklaw ng fair use ayon sa batas, ngunit pinuna ang mga kumpanya sa pagpapanatili ng permanenteng library ng mga pirated na libro.


