
主なAIモデルがAGIテストで全滅:従来人間技能の高い壁
2025-03-26
著者: 愛子
高性能AIの「日常力」はどれほどか?新テストが明らかにする意外な落とし穴
この実験では、さまざまなAIモデルに対して「ARC-AGI-2」の課題を解決に導き、正解率と「タスクあたりのコスト」の両面から評価しています。
タスクには、見慣れたシンボル(記号)の意味づけを文脈によって切り替えたり、「同じパターンを別の視点から再構成しないと正解が出ない」といった、少し工夫された問題が多く含まれています。
とはいえある課題では、記号が数学の演算記号での意味を持つ場合、全く別の操作を示す場合もあり、どの文脈でどう解釈すべきかを瞬時に判断する必要があります。
また、別のテストでは、同じパターンの形が、見る角度や配置の違いによって異なるルールに従うといった問題が出題され、AIにはその背後にある複雑なルールや文脈の変化を正確に読み取ることが求められました。
今回の研究では、以下のAIモデルが使用され、ARC-AGI-2のテストが実施されました。
- OpenAIの「o3-low」(Chain-of-Thought+Search/Synthesis方式)
- OpenAIの「o1-pro」(Chain-of-Thought+Search/Synthesis方式)
- Kaggle 2024優勝者「ARChitects」
- 「o3-mini-high」(Single Chain-of-Thought方式)
- 「r1」および「r1-zero」(いずれもSingle Chain-of-Thought方式)
- そして、純粋な大規模言語モデルである「GPT-4.5」
人間であれば、二度のトライ以内(pass@2)で正解にたどり着くケースが比較的多く見られ、平均してAIよりも高いスコアを記録したと言われています。
ただし、人間が必ずしも全問を簡単に解いたわけではありません。
実際には人間パネルの平均スコアは46%程度と報告されており、タスクに対しては手間がかかるものも多く存在しました。
また、AIの提案に依存することで、ある問題に対して200ドル相当と言われるコスト対策を求める大規模なリソースが投入されても、正解が出せない事例が多数確認されました。
特にARC-AGI-1で高得点を出していた有名なAIは、ARC-AGI-2では一桁台に落ち込むなど、「得意だったモデルがまったく立場を失った」と言われる光景も目撃されました。
強力な計算能力を持ってもスコアが悪化することから、人間的な直感や感情の思考プロセスを再現するのは決して簡単ではなく、こうした事実が改めて浮き彫りになりました。
なぜこの研究が革新的なのか?
ARC-AGI-2の最大の特徴は、「問題を解けるかどうか」に加え「どの程度のコストで解いたか」という視点を入れた点です。
人間が持つ直感や柔軟性は巨大な計算を必要ともせず、多くのAIはそこが苦手であり、本質的な意味や文脈を掴むという部分を欠落していると言えます。
こうした弱点が明確になったことで、「本当に優れたAI」を実現するためには、なおさら巨大なモデルを使うだけでは足りず、より深い推論手法や新しいアルゴリズムが求められるのではないかと考えられています。