Tudomány

Tech: Megdöbbentő eredmény! Emberi intelligencia 60%, míg a mesterséges intelligencia csupán 1%!

2025-03-26

Szerző: Réka

Bevezetés

Alan Turing, aki a második világháború alatt feltörte a németek titkosító berendezését, az Enigmát, 1950-ben hirdette meg a Turing-teszt gondolatát. Ez a teszt arra szolgál, hogy kiderítse, képes-e egy gép olyan módon kommunikálni, hogy a tesztalany ne tudja eldönteni, hogy ember vagy gép küldte az üzenetet. A ChatGPT és hasonló rendszerek elterjedésével felmerült a kérdés: vajon mennyire intelligens a gép az emberhez képest?

Az új mérés: ARC-AGI-2

A Turing-teszt azonban már nem elegendő a mesterséges intelligencia pontos mérésére, ezért François Chollet, a neves MI-kutató és az Arc Prize Foundation társalapítója kifejlesztett egy új tesztet, az ARC-AGI-2-t. A teszt eredményei azt mutatják, hogy az emberi intelligencia még mindig jelentősen felülmúlja a mesterséges intelligenciát.

A teszt felépítése

Az ARC-AGI teszt rejtvényszerű feladatokból áll, ahol a mesterséges intelligenciának vizuális mintákat kell azonosítania különböző színű négyzetekből, és „válaszként” ki kell állítania a helyes rácsot. A cél az, hogy a mesterséges intelligenciát olyan új problémákhoz kényszerítsék, amelyeket korábban nem látott. Az OpenAI legújabb modellei, mint az o1-pro és a DeepSeek R1, mindössze 1 és 1,3 százalék körüli eredményeket értek el, míg a nagy teljesítményű modellek, mint a GPT-4.5, a Claude 3.7 Sonnet és a Gemini 2.0 Flash, körülbelül 1 százalékon állnak.

Eredmények és következtetések

A teszt során 400 önkéntes is részt vett, és az átlagos emberi teljesítmény 60 százalék körüli eredményt mutatott, amelyek így jóval magasabbak lettek, mint a mesterséges intelligencia eredményei. Chollet az X-en hangsúlyozta, hogy az ARC-AGI-2 sokkal pontosabb képet ad a rendszerek intelligenciájáról, mint az előző tesztvariáns.

Az ARC-AGI-2 előnyei

A teszt legnagyobb előnye, hogy megakadályozza a mesterséges intelligenciát abban, hogy pusztán a nyers erőre támaszkodva számolja ki az adott feladat megoldását. A szervezet új mérőszámot is bevezetett a hatékonyság révén, lehetővé téve a modellek számára, hogy menet közben értelmezzék a mintákat, ahelyett, hogy csak memorizálnának.

A jövőbeli kilátások

Chollet kiemelte: „A képességek megszerzésének és alkalmazásának hatékonysága kulcsfontosságú. A kérdés nemcsak az, hogy a mesterséges intelligencia elsajátíthatja-e a feladat megoldásához szükséges készséget, hanem az is, hogy ezt milyen költséggel tudja megtenni.” A korábbi ARC-AGI-1 benchmark teljesítményét sokáig megugorhatatlannak tartották, ám az OpenAI 2024 decemberében bejelentette, hogy az o3 modellje 75,5 százalékos eredményt ért el ezen a teszten, amely már az emberi teljesítmény szintje.

A mesterséges intelligencia jelenlegi helyzete

A legfrissebb eredmények pedig rávilágítanak, hogy a mesterséges intelligencia még mindig távol áll a tökéletességtől: az ARC-AGI-2 teszt esetében ugyanez a rendszer csupán 4 százalékot teljesített. A teszteléshez feladatonként 200 dollár, azaz körülbelül 74 ezer forint értékű számítási kapacitást kellett biztosítani. Az Arc Prize Foundation most célzottan hívja fel a figyelmet az iparágra: ahhoz, hogy a mesterséges intelligencia elérje a 85 százalékos teljesítményt a teszten, a költségeket mindenki számára megfizethető szintre, maximum 0,42 dollárra (kb. 155 forint) kell csökkenteni feladatonként. A verseny csak most kezdődik, és a jövőbeni innovációk már a küszöbön állnak!