AI är dummare än du tror – Chockande resultat avslöjar sanningen!
2024-11-18
Författare: Oscar
Open AI har nyligen introducerat SimpleQA, en ny och spännande benchmark för att utvärdera faktanoggrannheten hos stora språkmodeller (LLM) som ligger till grund för generativ AI.
Tänk på detta som den ultimata högskoleprovet för chattbotar, med hela 4 326 frågor som spänner över ämnen som vetenskap, politik, popkultur och konst. Varje fråga har ett specifikt korrekt svar som verifieras av oberoende granskare.
Frågan ställs upprepade gånger, hela 100 gånger, och syftet är att följa svarens konsekvens. En mer självsäker modell borde konsekvent kunna ge samma svar.
Det intressanta är att dessa frågor har valts strategiskt för att utmana AI-modeller, särskilt de baserade på Open AI:s GPT-4. Detta förklarar de låga träffsäkerhetspoängen, som helt klart visar på brister hos just de svårare frågorna snarare än modellerna som helhet.
Detta mönster påminner om de amerikanska SAT-proven, där betygen inte ges baserat på allmänt kända fakta, utan snarare på svårare frågor som gymnasieelever kämpar med. Resultatet från denna benchmarking visade att Open AI:s modeller är långt ifrån tillförlitliga. I praktiken hallucinerar de ofta.
Open AI:s senaste o1-preview-modell nådde endast en träffsäkerhet på 42,7 procent, medan GPT-4o följde med en blygsam 38,2 procent. Den mindre GPT-4o-mini klarade sig ännu sämre med endast 8,6 procent korrekt. Anthropic, en annan aktör, hade ännu sämre resultat; deras Claude-3.5-sonnet-modell lyckades bara med 28,9 procent.
Samtliga av dessa modeller fick ett F-betyg och gav många fler felaktiga svar än korrekta. Och dessa är frågor som de flesta människor lätt kan hantera.
Exempel på frågor som ställs av SimpleQA är: - Vilket år sjönk Titanic? - Vem var den första presidenten i USA? - Vad är den kemiska symbolen för guld? - Hur många planeter finns det i vårt solsystem? - Vilken är huvudstaden i Frankrike? - Vilken flod är den längsta i världen? - Vem målade Mona Lisa? - Vad är titeln på den första Harry Potter-boken? - Vad står CPU för? - Vem kallas datorns far?
Dessa frågor, även om de kanske verkar enkla för människor, kan vara en riktig utmaning för chattbotar. De enskilda svaren kräver precisionsnoggrannhet utan variationer eller garderingar, vilket ofta leder till misslyckande. Chattbotar presterar bättre med öppna och mer komplexa frågor, men har svårt att ge korta och exakta svar.
SimpleQA:s frågor är konstruerade för att vara korta och stå på egna ben, vilket också påverkar svarens kvalitet negativt. Att ge mer kontext när man formulerar frågor kan förbättra resultaten avsevärt.
För att förvärra situationen visar det sig att LLM:erna uppskattar sin egen noggrannhet på ett överdrivet sätt. I SimpleQA-projektet rapporterade chattbotarna ofta uppblåsta självsäkerhetsnivåer angående sina svar, vilket pekar på att de bluffar om sin faktiska tillförlitlighet.
Forskning utförd av MIT, Harvard och Cornell University har också belyst att LLM:er, trots sina imponerande prestationer, saknar en djupgående förståelse för världen. I ett test kunde modeller generera korrekta väganvisningar i komplexa miljöer som New York City. Men när forskarna lekte med variabler och stängde av gator, föll modellernas träffsäkerhet dramatiskt till 67 procent.
Problemet med hallucinationer i dessa AI-system är reellt och oroande. Företag och individer förlitar sig alltmer på LLM-baserade tjänster i den verkliga världen, men många är inte medvetna om de potentiella riskerna.
Ett färskt exempel på detta är Open AI:s transkriptionsverktyg Whisper, som används av sjukhus och läkare för medicinska anteckningar. Enligt rapporter har Whisper redan laddats ner mer än 4,2 miljoner gånger från plattformen HuggingFace.
Mer än 30 000 läkare använder en applikation som heter Nabla, baserad på Whisper och specialanpassad för medicinsk jargong. Det rapporteras att Nabla har använts vid ungefär sju miljoner läkarbesök i USA och Frankrike. Tyvärr kan Whisper också hallucinerar, med skrämmande resultat i dokumentation och transkriptioner.
Experter varnar för att denna typ av AI-verktyg kan leda till feldiagnoser och andra allvarliga problem.
Vad är lösningen? Var alltid kritisk och sök om möjligt en andra åsikt, vare sig det gäller medicinska diagnoser eller AI-svar. Kolla även originalkällor och utför faktakontroller för att säkerställa att informationen är korrekt.
AI-chattbotar kan vara användbara för att lära sig nya saker, diskutera ämnen eller sammanfatta material. Men kom ihåg att de sällan är tillförlitliga källor för faktainformation. Att kopiera och klistra in AI-genererad text kan vara missledande och ineffektivt. Forskning visar att dessa chattbotar potentiellt kan ljuga eller ge felaktig information, vilket är en verklighet som allt fler måste förhålla sig till.