Które modele AI halucynują najwięcej? Zaskakujące wyniki analizy

Technologia

Które modele AI halucynują najwięcej? Zaskakujące wyniki analizy

2025-02-19

Autor: Piotr

Wszystkie duże modele językowe (LLM) mają tendencję do popełniania błędów, a problem halucynacji wśród AI dotyczy także najnowszych, najbardziej zaawansowanych systemów, które potrafią błyskawicznie analizować i rozwiązywać złożone zadania matematyczne.

Badania wykazują, że niektóre narzędzia generatywnej sztucznej inteligencji często kłamą w porównaniu do innych. W badaniu, opracowanym przez firmę Vectara, uwzględniono 25 najpopularniejszych modeli AI, w tym te stworzone przez OpenAI, Google oraz Amazon.

Najnowsze badania na temat halucynacji w sztucznej inteligencji, przeprowadzone w lutym 2023 roku, wskazują, że na czołowej pozycji w niechlubnym rankingu znalazły się modele LLM z Chin, takie jak Qwen i DeepSeek. Ten ostatni, mimo że zadebiutował dopiero pod koniec stycznia, szybko zyskał miano „punktu zwrotnego w historii AI”. Model open source zdołał osiągnąć poziom amerykańskich modeli AI, przy stosunkowo niskim zapotrzebowaniu na procesory graficzne. Firma High-Flyer Quant, która stoi za DeepSeek, zabezpieczyła ponad 10 tys. procesorów graficznych Nvidia do trenowania swoich modeli.

Choć rynek chiński poczynił znaczące oszczędności w kosztach, nie zmniejszyło to liczby błędów w produkcie. Koszt trenowania modeli LLM w Chinach spadł z ponad 100 mln dol. do jedynie 5 mln dol. Mimo że podawano w wątpliwość dokładność tych danych, DeepSeek stał się hitem. Model ten, oznaczony jako wersja 2.5, znalazł się w czołówce pod względem halucynacji – badania wykazały, że jego wskaźnik błędów wynosi 2,4 proc., co uplasowało go na piątej pozycji w rankingu.

Zdecydowanie gorzej w rankingu wypadły modele od Alibaby, takie jak Qwen 2.5 Max i Qwen 2.5 – 7B Instruct, które zajęły pierwsze i drugie miejsce w kategorii najczęściej wprowadzających błąd, z wskaźnikami 2,9 i 2,8 proc. Co ciekawe, podobnie złe wyniki osiągnęły również modele xAI 2 Vision stworzone przez Elona Muska oraz Jamba 1.5 mini od izraelskiej firmy AI21, co pokazuje, że problem halucynacji nie dotyczy wyłącznie chińskich rozwiązań, ale jest globalnym wyzwaniem w dziedzinie sztucznej inteligencji.

Eksperci podkreślają, że postępujący rozwój AI i wykorzystanie takich modeli w codziennym życiu stawia przed nami wiele wyzwań, w tym potrzebę krytycznego podejścia do informacji generowanych przez sztuczną inteligencję. Przykładowo, niektóre z tych modeli mogą wprowadzać użytkowników w błąd w kontekście ważnych danych naukowych czy medycznych, co jest szczególnie niebezpieczne. Użytkownicy muszą więc być świadomi, że poleganie wyłącznie na AI w podejmowaniu decyzji może prowadzić do poważnych konsekwencji.

Które modele AI halucynują najwięcej? Zaskakujące wyniki analizy

Nike w kryzysie: największe wyzwania od 5 lat!

Apple ujawnia datę WWDC 2025. Co przyniesie nowego?

Toruń: Wstrząsające zmiany w sprawie zabójstwa Klaudii K.

Huty w Kryzysie: Czy Wyższe Cła na Stal Uratują Europejski Przemysł?

Polska Brać się w Garść! Grbić po Porażce: "Kolejny Raz bez Złota"

Czesi oskarżają Chiny o cyberataki! Co na to NATO?

Sensacja w Montrealu! Sevastova eliminuje Pegulę i wywołuje poruszenie przed meczem Świątek!

Polacy masowo wypłacają oszczędności. Rekord wypłat z PPK!

Jak Tesla Cybertruck traci na wartości? Zaskakujące dane od właścicieli!