Tóm tắt
- Quỹ Wikimedia đã công bố hàng loạt quan hệ đối tác với các công ty AI nhằm sử dụng nội dung của mình để huấn luyện các mô hình ngôn ngữ lớn (LLM).
- Các công ty AI đã đăng ký sản phẩm Enterprise của tổ chức này để tái sử dụng nội dung Wikipedia trên quy mô lớn.
- Vào tháng 10 năm ngoái, Quỹ này cho biết lượt truy cập trang web đã giảm do người dùng sử dụng các bản tóm tắt AI thay vì truy cập trực tiếp trang web.
Quỹ Wikimedia đã công bố một loạt quan hệ đối tác mới với các công ty trí tuệ nhân tạo, cho phép họ sử dụng nội dung Wikipedia để huấn luyện và cung cấp năng lượng cho các mô hình AI của mình, khi tổ chức phi lợi nhuận này tìm cách củng cố tính bền vững lâu dài trong bối cảnh hành vi trực tuyến thay đổi.
Các thỏa thuận này được ký thông qua Wikimedia Enterprise, sản phẩm thương mại của tổ chức nhằm phục vụ cho những người sử dụng và phân phối nội dung từ các dự án Wikimedia trên quy mô lớn. Các đối tác mới bao gồm Ecosia, Microsoft, Mistral AI, Perplexity, Pleias và ProRata. Họ gia nhập cùng các đối tác hiện tại như Amazon, Google và Meta.
“Trong kỷ nguyên AI, Wikipedia và tri thức được con người tạo dựng, kiểm duyệt chưa bao giờ có giá trị như hiện nay,” Quỹ này cho biết trong một tuyên bố.
“Tri thức của Wikipedia cung cấp cho các chatbot AI tổng hợp, công cụ tìm kiếm, trợ lý giọng nói và nhiều hơn nữa. Wikipedia là một trong những bộ dữ liệu chất lượng cao nhất được sử dụng để huấn luyện các mô hình ngôn ngữ lớn.”
Thông báo này được công bố như một phần cập nhật nhân dịp kỷ niệm 25 năm Wikipedia.
Bách khoa toàn thư trực tuyến này nằm trong top mười trang web được truy cập nhiều nhất toàn cầu và là trang duy nhất trong nhóm này do một tổ chức phi lợi nhuận điều hành. Hơn 65 triệu bài viết của Wikipedia, được xuất bản bằng hơn 300 ngôn ngữ, được xem gần 15 tỷ lần mỗi tháng, theo số liệu từ Quỹ.
Tuy nhiên, tổ chức đã cảnh báo rằng các xu hướng lưu lượng truy cập đang thay đổi. Vào tháng 10, họ cho biết lượt truy cập của con người vào Wikipedia đã giảm 8% so với cùng kỳ năm trước, cho rằng nguyên nhân là do người dùng dựa vào các bản tóm tắt do AI tạo ra thay vì truy cập trực tiếp trang web. Gần 60% các tìm kiếm trên Google hiện kết thúc mà không có một cú nhấp chuột, với các câu trả lời trên trang thường được cung cấp bởi nội dung từ Wikipedia.
AI đối đầu với các nhà xuất bản
Các thỏa thuận này diễn ra trong bối cảnh tranh luận rộng hơn về cách các công ty AI thu thập dữ liệu huấn luyện. Các mô hình ngôn ngữ lớn thường được huấn luyện trên lượng lớn tài liệu trực tuyến, thực tiễn này đã bị chỉ trích bởi các tác giả, nhà xuất bản và các chủ sở hữu quyền khác, những người cho rằng việc sử dụng các tác phẩm có bản quyền mà không có sự cho phép là vi phạm.
Trong số đó, Reddit đang tham gia nhiều vụ kiện với các công ty AI về việc sử dụng nội dung của mình để huấn luyện mô hình, mặc dù họ đã đạt được các thỏa thuận cấp phép với các công ty như Google.
Vào thứ Năm, các nhà xuất bản sách lớn Hachette Book Group và Cengage Group đã đệ trình yêu cầu tham gia một vụ kiện tập thể hiện có nhằm chống lại Google, cáo buộc công ty thực hiện “hành vi vi phạm bản quyền lịch sử” để xây dựng nền tảng Gemini AI. Vụ kiện cáo buộc Google đã sao chép sách mà không có giấy phép hợp lệ trong quá trình huấn luyện AI. Vụ kiện này ban đầu được đệ trình vào năm 2023 bởi một nhóm các tác giả.
OpenAI cũng đang đối mặt với một vụ kiện tương tự từ các nguyên đơn bao gồm tác giả "Game of Thrones" George R.R. Martin.
Các công ty giải trí cũng đang gây áp lực về vấn đề này. Vào giữa tháng 12, Disney đã gửi thư yêu cầu ngừng hành vi cho Google, cáo buộc vi phạm bản quyền, ngay cả khi Disney đã ký một thỏa thuận cấp phép riêng với OpenAI bao gồm hàng trăm nhân vật cho video do AI tạo ra. Disney đã gửi các thông báo tương tự cho các công ty AI khác và đang tham gia kiện tụng cùng các hãng phim lớn chống lại công ty tạo ảnh Midjourney.
Cũng trong tháng đó, một liên minh các nhà văn, diễn viên và chuyên gia công nghệ đã ra mắt một nhóm ngành mới nhằm thúc đẩy các tiêu chuẩn có thể thực thi về cách AI được huấn luyện và sử dụng trong lĩnh vực giải trí. Hơn 500 nhân vật nổi tiếng đã ủng hộ sáng kiến này, bao gồm Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro và Taika Waititi.
Ủy ban châu Âu cũng đã mở một cuộc điều tra chống độc quyền chính thức nhằm xem xét liệu Google có vi phạm quy định cạnh tranh của EU khi sử dụng nội dung của nhà xuất bản và YouTube để cung cấp dịch vụ AI mà không có sự đồng ý hoặc bồi thường hợp lý hay không.
Vẫn chưa rõ liệu các chủ sở hữu bản quyền có tìm được biện pháp bảo vệ quyền lợi của mình hay không. Gần đây, các thẩm phán liên bang tại Mỹ đã đưa ra các phán quyết một phần có lợi cho Meta và Anthropic, cho rằng việc sử dụng sách có bản quyền để huấn luyện các mô hình AI được coi là sử dụng hợp lý, đồng thời chỉ trích các công ty này vì duy trì các thư viện vĩnh viễn các tác phẩm vi phạm bản quyền.
