Technológia

Tech: Sorra tiltják ki a netről az MI-t, és ez valójában fenyegető fejlemény

2024-10-05

A mesterséges intelligencia (MI) fejlesztői számára aggasztó trendet jelez, hogy a legnagyobb internetes tartalomszolgáltatók egyre inkább korlátozzák a keresőrobotjaik hozzáférését a weboldalaikhoz. Míg tavaly csupán a weboldalak 3%-a jelezte, hogy nem kívánatosnak tekinti a szöveges tartalmak után kutakodó algoritmusokat, addig idén ez az arány már 30%-ra nőtt. Olyan neves portálok, mint a The New York Times, a HuffPost és a The Guardian is zárják el magukat a mesterséges intelligencia nagy nyelvi modelljei (LLM) elől, hogy megóvják írásaikat és cikkeiket az MI által történő felhasználástól.

Egy nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer weboldalt vizsgált meg ehhez kapcsolódóan, arra figyelmeztetett, hogy a híroldalak védelme egyre inkább elterjedt gyakorlat, azonban a honlapok tulajdonosai nem mutatnak következetességet a tiltás terén. Emellett megjegyezték, hogy a különböző cégek világszerte folyamatosan fejlesztenek nagy MI-modelleket, de a tartalomszolgáltatók elsősorban a ChatGPT-t fejlesztő OpenAI keresőrobotjait próbálják távol tartani.

A jelentés alapján, ha ez a tendencia folytatódik, az a kereskedelmi célú MI fejlődését nemcsak hátráltathatja, hanem komoly következményekkel járhat a tudományos kutatásokra is. Ahhoz, hogy jobban megértsük a nagy nyelvi modellek működését, fontos tudni, hogy ezek széleskörű szövegadatbázisokon, azaz korpuszokon tanulnak. Az LLM-ek teljesítménye közvetlenül arányos az általuk feldolgozott adatok mennyiségével és minőségével.

A ChatGPT esetében például az alapmodell tanításához felhasznált adatbázis több mint 300 milliárd szót tartalmazott, amelynek csupán 3%-a származott a teljes angol nyelvű Wikipédiáról. A többi adat nagy része a Common Crawl archívumból származott, amely az internetet mintázza. A folyamat azonban nem áll meg, mivel ezek az adatbázisok folyamatos frissítést igényelnek; ha nem újítják meg őket, a nyelvi modellek teljesítménye csökkenhet.

A közelmúltban több botrány is felkeltette a figyelmet, hiszen a LinkedIn csendben megkezdte az MI-kutatás céljából a felhasználói tartalmak feltérképezését. Ezen események kapcsán a felhasználóknak joguk van jelezni, hogy nem szeretnék, ha tartalmukat ilyen módon felhasználnák, azonban ez nem terjed ki a már meglévő adatokra. Melinda Claybaugh, a Meta adatvédelemért felelős vezetője is elismerte, hogy cégük keresőrobotja visszamenőleg néz szét az ausztrál Facebook- és Instagram-felhasználók posztjaiban. Eközben a Google és az OpenAI is felszabadította MI-módosító eszközét a YouTube-videókhoz, amelyből eddig több mint 14 milliárd hosszabb-rövidebb filmben elhangzott szöveget használtak fel.

A szakértők hangsúlyozzák, hogy ezek a titokban zajló adatszerzések jogi és etikai szempontból is aggályosak. Az MI nem használja fel az adatokat egy az egyben, de az adatok forrásának homályossága sok szerzői jogi kérdést felvet. Emellett a Nature tudományos folyóirat is felhívta a figyelmet arra, hogy a szintetikus adatok generálása szükségessé válhat, de világosabbá kell tenni, hogy a nyelvi modellek milyen forrásokat használnak a válaszaik létrehozásához.

Ahogy a világ egyre inkább a mesterséges intelligencia fejlődésére támaszkodik, úgy a humán adatgyűjtés kimerülése körvonalazódik. Egy európai kutatócsoport figyelmeztette, hogy ha a trendek folytatódnak, 2030 környékére elfogynak a jó minőségű, ember által generált adatok. Az MI közeljövőbeli fejlődésének fenntartásához elengedhetetlen, hogy új megoldásokat találjanak, úgymint a digitális technológiák előtti írások és művek digitalizálását, amit sokan még mindig csak átmeneti megoldásnak látnak. Az MI- fejlesztők folyamatosan keresik az új forrásokat, és egyre inkább sürgetővé válik, hogy a humán tartalom fenntarthatóságáról is gondoskodni kell a jövőt illetően.