W skrócie

  • Fundacja Wikimedia ogłosiła szereg partnerstw z firmami AI w celu wykorzystania jej treści do szkolenia dużych modeli językowych (LLM).
  • Firmy AI podpisały umowy na korzystanie z produktu Enterprise, umożliwiającego szeroko zakrojone wykorzystanie treści Wikipedii.
  • W październiku zeszłego roku Fundacja poinformowała, że liczba odwiedzin strony spada z powodu korzystania przez użytkowników z podsumowań AI zamiast bezpośrednich wizyt na stronie.

Fundacja Wikimedia ogłosiła serię nowych partnerstw z firmami zajmującymi się sztuczną inteligencją, które umożliwią wykorzystanie treści Wikipedii do trenowania i zasilania ich modeli AI, podczas gdy organizacja non-profit dąży do wzmocnienia swojej długoterminowej stabilności w obliczu zmieniających się zachowań online.

Umowy zostały podpisane za pośrednictwem Wikimedia Enterprise, komercyjnego produktu fundacji przeznaczonego dla dużych odbiorców i dystrybutorów treści z projektów Wikimedia. Do nowych klientów należą Ecosia, Microsoft, Mistral AI, Perplexity, Pleias i ProRata. Dołączają oni do dotychczasowych partnerów, takich jak Amazon, Google i Meta.

„W erze sztucznej inteligencji Wikipedia i jej tworzona oraz nadzorowana przez ludzi wiedza nigdy nie były bardziej wartościowe” – stwierdziła fundacja w oświadczeniu.

„Jej wiedza zasila generatywne chatboty AI, wyszukiwarki, asystentów głosowych i wiele innych. Wikipedia jest jednym z najwyższej jakości zbiorów danych wykorzystywanych do szkolenia dużych modeli językowych.”

Ogłoszenie zostało wydane w ramach aktualizacji z okazji 25-lecia istnienia Wikipedii.

Internetowa encyklopedia znajduje się w pierwszej dziesiątce najczęściej odwiedzanych stron na świecie i jest jedyną w tej grupie prowadzoną przez organizację non-profit. Według fundacji, ponad 65 milionów artykułów opublikowanych w ponad 300 językach jest przeglądanych niemal 15 miliardów razy miesięcznie.

Fundacja ostrzega jednak, że wzorce ruchu ulegają zmianie. W październiku poinformowała, że liczba odwiedzin Wikipedii przez ludzi spadła o 8% rok do roku, przypisując ten spadek temu, że użytkownicy polegają na podsumowaniach generowanych przez AI zamiast odwiedzać stronę bezpośrednio. Niemal 60% wyszukiwań w Google kończy się teraz bez kliknięcia, a odpowiedzi na stronie są często generowane na podstawie treści z Wikipedii.

AI kontra wydawcy

Umowy te pojawiają się w kontekście szerszej debaty dotyczącej sposobu pozyskiwania danych szkoleniowych przez firmy AI. Duże modele językowe są zazwyczaj trenowane na ogromnych ilościach materiałów dostępnych w sieci, co spotyka się z krytyką ze strony autorów, wydawców i innych właścicieli praw, którzy argumentują, że wykorzystywanie chronionych prawem autorskim dzieł bez zgody stanowi naruszenie.

Wśród nich Reddit jest zaangażowany w kilka procesów sądowych z firmami AI dotyczących wykorzystania jego treści do trenowania modeli, choć zawarł już umowy licencyjne m.in. z Google.

W czwartek główni wydawcy książek Hachette Book Group i Cengage Group złożyli wniosek o dołączenie do istniejącego już pozwu zbiorowego przeciwko Google, oskarżając firmę o „historyczne naruszenie praw autorskich” przy budowaniu platformy Gemini AI. Pozew zarzuca Google kopiowanie książek bez odpowiednich licencji podczas procesu szkolenia AI. Sprawa została pierwotnie wniesiona w 2023 roku przez grupę autorów.

OpenAI stoi w obliczu podobnej sprawy wytoczonej m.in. przez George'a R.R. Martina, autora „Gry o tron”.

Firmy z branży rozrywkowej również podejmują ten temat. W połowie grudnia Disney wysłał Google pismo o zaprzestaniu naruszeń, oskarżając firmę o naruszenie praw autorskich, mimo że sam Disney zawarł odrębną umowę licencyjną z OpenAI, obejmującą setki postaci do generowanych przez AI materiałów wideo. Disney wystosował podobne zawiadomienia do innych firm AI i uczestniczy w procesach sądowych wraz z głównymi studiami przeciwko firmie Midjourney zajmującej się generowaniem obrazów.

W tym samym miesiącu koalicja pisarzy, aktorów i technologów powołała nową grupę branżową, która ma na celu wprowadzenie egzekwowalnych standardów dotyczących sposobu szkolenia i wykorzystywania AI w sektorze rozrywki. Inicjatywę poparło ponad 500 znanych osób, w tym Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro i Taika Waititi.

Komisja Europejska również wszczęła formalne dochodzenie antymonopolowe, czy Google naruszył przepisy konkurencji UE, wykorzystując treści wydawców i YouTube do zasilania swoich usług AI bez uczciwego wynagrodzenia lub zgody.

Nie jest pewne, czy właściciele praw autorskich ostatecznie znajdą satysfakcjonujące rozwiązanie. Federalni sędziowie w USA niedawno przyznali częściowe zwycięstwa Meta i Anthropic, orzekając, że wykorzystanie przez nie chronionych prawem autorskim książek do szkolenia modeli AI stanowi dozwolony użytek, jednocześnie krytykując firmy za utrzymywanie stałych bibliotek pirackich dzieł.