Które modele AI halucynują najwięcej? Zaskakujące wyniki analizy
2025-02-19
Autor: Piotr
Wszystkie duże modele językowe (LLM) mają tendencję do popełniania błędów, a problem halucynacji wśród AI dotyczy także najnowszych, najbardziej zaawansowanych systemów, które potrafią błyskawicznie analizować i rozwiązywać złożone zadania matematyczne.
Badania wykazują, że niektóre narzędzia generatywnej sztucznej inteligencji często kłamą w porównaniu do innych. W badaniu, opracowanym przez firmę Vectara, uwzględniono 25 najpopularniejszych modeli AI, w tym te stworzone przez OpenAI, Google oraz Amazon.
Najnowsze badania na temat halucynacji w sztucznej inteligencji, przeprowadzone w lutym 2023 roku, wskazują, że na czołowej pozycji w niechlubnym rankingu znalazły się modele LLM z Chin, takie jak Qwen i DeepSeek. Ten ostatni, mimo że zadebiutował dopiero pod koniec stycznia, szybko zyskał miano „punktu zwrotnego w historii AI”. Model open source zdołał osiągnąć poziom amerykańskich modeli AI, przy stosunkowo niskim zapotrzebowaniu na procesory graficzne. Firma High-Flyer Quant, która stoi za DeepSeek, zabezpieczyła ponad 10 tys. procesorów graficznych Nvidia do trenowania swoich modeli.
Choć rynek chiński poczynił znaczące oszczędności w kosztach, nie zmniejszyło to liczby błędów w produkcie. Koszt trenowania modeli LLM w Chinach spadł z ponad 100 mln dol. do jedynie 5 mln dol. Mimo że podawano w wątpliwość dokładność tych danych, DeepSeek stał się hitem. Model ten, oznaczony jako wersja 2.5, znalazł się w czołówce pod względem halucynacji – badania wykazały, że jego wskaźnik błędów wynosi 2,4 proc., co uplasowało go na piątej pozycji w rankingu.
Zdecydowanie gorzej w rankingu wypadły modele od Alibaby, takie jak Qwen 2.5 Max i Qwen 2.5 – 7B Instruct, które zajęły pierwsze i drugie miejsce w kategorii najczęściej wprowadzających błąd, z wskaźnikami 2,9 i 2,8 proc. Co ciekawe, podobnie złe wyniki osiągnęły również modele xAI 2 Vision stworzone przez Elona Muska oraz Jamba 1.5 mini od izraelskiej firmy AI21, co pokazuje, że problem halucynacji nie dotyczy wyłącznie chińskich rozwiązań, ale jest globalnym wyzwaniem w dziedzinie sztucznej inteligencji.
Eksperci podkreślają, że postępujący rozwój AI i wykorzystanie takich modeli w codziennym życiu stawia przed nami wiele wyzwań, w tym potrzebę krytycznego podejścia do informacji generowanych przez sztuczną inteligencję. Przykładowo, niektóre z tych modeli mogą wprowadzać użytkowników w błąd w kontekście ważnych danych naukowych czy medycznych, co jest szczególnie niebezpieczne. Użytkownicy muszą więc być świadomi, że poleganie wyłącznie na AI w podejmowaniu decyzji może prowadzić do poważnych konsekwencji.