Tóm tắt

  • Hachette Book Group và Cengage Group đã yêu cầu một tòa án liên bang California can thiệp vào vụ kiện tập thể cáo buộc Google vi phạm bản quyền trong quá trình huấn luyện AI vào thứ Năm.
  • Các nhà xuất bản cáo buộc Google đã tải xuống sách của họ từ các trang web lậu, bao gồm Z-Library và OceanofPDF, sau đó nhiều lần sao chép chúng khi huấn luyện các mô hình của mình.
  • Bộ dữ liệu huấn luyện C4 của Google bị cáo buộc lấy dữ liệu từ ít nhất 28 trang web có liên quan đến vi phạm bản quyền, với ký hiệu bản quyền xuất hiện hơn 200 triệu lần.

Hai nhà xuất bản lớn Hachette Book Group và Cengage Group đã nộp đơn đề nghị can thiệp vào một vụ kiện tập thể đã được đệ trình từ năm ngoái chống lại Google, cáo buộc tập đoàn công nghệ này tổ chức “vi phạm bản quyền lịch sử” để xây dựng nền tảng Gemini của mình.

Đơn kiện được nộp tại tòa án liên bang California cáo buộc Google “đã chọn đánh cắp một lượng lớn nội dung từ Nguyên đơn và Lớp thay vì xin giấy phép hợp pháp để huấn luyện mô hình AI của mình”, thực hiện vi phạm có chủ đích “ở mọi giai đoạn” phát triển.

Vụ kiện hợp nhất ban đầu được đệ trình năm 2023 bởi các tác giả cá nhân như một vụ kiện bản quyền tập thể, cáo buộc Google đã sao chép sách để huấn luyện các mô hình AI sinh thành của mình.

Các nhà xuất bản cho rằng Google đã tải xuống sách từ các trang web lậu và nhiều lần sao chép chúng trong quá trình huấn luyện AI, đầu tiên vào bộ nhớ máy tính, sau đó sang các định dạng mà hệ thống AI có thể đọc, và tiếp tục đưa vào các tập huấn luyện cho mỗi phiên bản mô hình mới.

Đơn kiện cho rằng bộ dữ liệu huấn luyện C4 của Google chứa các tác phẩm có bản quyền được lấy từ Z-Library, một kho sách lậu mà các cơ quan chức năng đã tịch thu hơn 350 trang web và tên miền.

Các nhà xuất bản lưu ý sách đã được sao chép từ b-ok.org, một tên miền của Z-Library hiện hiển thị thông báo bị tịch thu liên bang, cùng với OceanofPDF và WeLib, “một trang nổi bật khác với quyền truy cập vào kho nội dung có bản quyền không được phép.”

Bộ dữ liệu C4 chứa các tác phẩm từ ít nhất 28 trang web được chính phủ Hoa Kỳ xác định là thị trường cho vi phạm bản quyền và hàng giả, theo đơn kiện.

“Ký hiệu bản quyền (©) xuất hiện hơn 200 triệu lần trong bộ dữ liệu C4,” đơn kiện nêu, lưu ý rằng Google được cho là đã loại trừ “các thông báo chính sách” và “cảnh báo điều khoản sử dụng” nhưng lại bao gồm “nhiều loại tác phẩm có bản quyền, tác phẩm lậu và tác phẩm lấy từ sau các bức tường phí.”

Các nhà xuất bản cáo buộc Google đã sao chép các tác phẩm từ các thư viện dạng đăng ký như Scribd.com, qua mặt các thỏa thuận cấp phép hợp pháp.

Khi bị chất vấn về thực tiễn này, nhà cung cấp bộ dữ liệu phi lợi nhuận Common Crawl được cho là đã phản hồi với thái độ “đổ lỗi cho nạn nhân”, tuyên bố “Bạn không nên đăng nội dung của mình lên internet nếu bạn không muốn nó xuất hiện trên internet.”

Đơn kiện cho rằng Gemini hiện tạo ra các đầu ra “thay thế cho các tác phẩm có bản quyền”, bao gồm bản sao nguyên văn, tóm tắt chi tiết và “bản nhái sao chép các yếu tố sáng tạo của tác phẩm gốc.”

Decrypt
đã liên hệ với Google và luật sư của các nhà xuất bản.

AI và các nhà xuất bản

Google đồng thời đang bảo vệ mình trước các cáo buộc chống độc quyền từ Penske Media Corporation về tính năng AI Overviews, với tuyên bố của tập đoàn công nghệ rằng việc hiển thị các bản tóm tắt do AI tạo ra là “cải tiến sản phẩm hợp pháp chứ không phải hành vi chống cạnh tranh.”

Các nhà xuất bản yêu cầu bồi thường theo luật định, các lệnh cấm vi phạm tiếp theo và một lệnh yêu cầu Google tiêu hủy toàn bộ các bản sao không được phép của tác phẩm của họ cũng như tiết lộ những cuốn sách nào đã được sử dụng để huấn luyện Gemini.

Đơn đề nghị can thiệp này được đưa ra sau hàng loạt vụ kiện bản quyền mà các tác giả đã đệ trình chống lại các công ty AI vào năm 2023, với các thẩm phán liên bang đưa ra một phần thắng lợi cho Meta và Anthropic, phán quyết rằng việc họ sử dụng sách có bản quyền để huấn luyện mô hình của mình là sử dụng hợp lý theo luật bản quyền, nhưng chỉ trích các công ty này vì duy trì kho sách vi phạm bản quyền vĩnh viễn.