Wikipedia w niebezpieczeństwie: Sztuczna inteligencja zagraża naszemu dostępowi do wiedzy
2025-04-05
Autor: Katarzyna
Zasoby Wikipedii i powiązanych projektów zawsze były dostępne w różnych komercyjnych i akademickich produktach, jednak dopiero od początku 2024 roku zjawisko masowego pobierania treści przez firmy zajmujące się sztuczną inteligencją nabrało tempa. Używają one różnych metod: od standardowego indeksowania poprzez API, aż po hurtowe ściąganie całych zasobów.
Wikimedia zauważa, że ogromne zapotrzebowanie na nowe dane dla modeli AI generuje znaczne koszty techniczne i finansowe. Organizacja podkreśla, że nie otrzymuje wystarczającego wsparcia finansowego ani rzetelnego przypisania autorstwa do wykorzystywanych materiałów.
Sytuacja stała się szczególnie niepokojąca w grudniu 2024 roku, kiedy zmarł były prezydent USA, Jimmy Carter. Zainteresowanie jego osobą doprowadziło do rekordowej liczby odsłon artykułu na Wikipedii. Problem pojawił się, gdy miliony osób jednocześnie oglądały 1,5-godzinną relację wideo z debaty z 1980 roku udostępnioną w Wikimedia Commons, co spowodowało znaczne obciążenie serwerów. Inżynierowie szybko musieli przekierowywać ruch, ponieważ przepustowość komunikacji była już zajęta przez boty pobierające multimedia.
Zjawisko to nie jest obce innym projektom open-source. Takie sytuacje prowadziły do awaryjnego blokowania źródeł ich działalności, jak miało to miejsce w przypadku projektu Fedora, który zablokował ruch z Brazylii, lub GNOME, które wprowadziło mechanizmy proof-of-work na swojej platformie GitLab.
Wikimedia wskazuje, że problem z ruchem botów nie rozwiązuje nawet cachowanie danych, ponieważ korzystają one masowo ze wszystkich dostępnych zasobów, w tym rzadko odwiedzanych stron. Dane wskazują, że boty generują około 65% najbardziej wymagających zapytań, choć odpowiadają tylko za 35% łącznej liczby odsłon. Oznacza to, że takie zapytania są o wiele bardziej obciążające dla serwera niż ruch losowych użytkowników, a niektóre boty łamią zasady pliku robots.txt, podszywając się pod zwykłych internautów.
Zespół odpowiedzialny za niezawodność Wikipedii zmaga się z ciągłą walką z niepożądanym ruchem, co odciąga ich uwagę od rozwoju i utrzymania serwisu. Infrastruktura developerska także cierpi z powodu zwiększonego obciążenia, co wpływa na efektywność procesów weryfikujących kod.
Choć wprowadzenie bardziej zaawansowanych rozwiązań technicznych, takich jak proof-of-work, może pomóc w pewnym zakresie, nie jest to rozwiązanie na dłuższą metę. Boty nieustannie znajdują sposoby na obejście zabezpieczeń, co stawia Wikimedia przed trudnym wyzwaniem. W odpowiedzi organizacja wprowadza inicjatywę WE5: Responsible Use of Infrastructure, mającą na celu wypracowanie zasad odpowiedzialnego korzystania z jej zasobów. Istnieje potrzeba efektywniejszego pobierania danych oraz opracowania przejrzystych zasad ograniczających ruch generowany przez boty.
Mimo że projekty Wikimedia od lat promują wolny dostęp do wiedzy, dla ich przyszłości kluczowe będzie znalezienie równowagi między otwartością a odpowiedzialnością. Jeśli firmy będą nadal masowo wykorzystywać treści, nie wspierając kosztów infrastruktury, może to zagrozić stabilności całego ekosystemu, ograniczając dostęp do zasobów, które stanowią fundament misji Wikipedii.
Potencjalnym rozwiązaniem może być lepsza koordynacja z developerami AI oraz stworzenie dedykowanych interfejsów API, które mogłyby wspierać finansowanie. Brak działań w tej kwestii może prowadzić do ograniczenia dostępu do wolnej wiedzy i spowolnienia rozwoju projektów opartych na wolnych licencjach. W przyszłości, jeśli problem nie zostanie rozwiązany, Wikipedia i inne podobne organizacje mogą zniknąć z mapy, ponieważ ich serwery będą przeciążone przez boty. To z kolei może spowodować, że bezpłatne treści znikną z internetu, a my pozostaniemy bez dostępu do wiedzy, którą przez lata tak pilnie zbierano.