|
2月23日、IT Homeは、OpenAIの従業員が、イーロン・マスク氏のxAI社が最新のAIモデルGrok 3のベンチマーク結果に誤解を招く表現を使ったと公に非難したと報じた。これに対し、xAIの共同創業者であるイゴール・バブシュキン氏は、同社は何も不正行為を行っていないと主張した。 xAIは自社ブログに、招待制の数学試験で最近実施された高難度の数学問題集であるAIME 2025におけるGrok 3の性能を示すグラフを掲載しました。一部の専門家はAIベンチマークとしてのAIMEの妥当性に疑問を呈していますが、AIME 2025とその以前のバージョンは、モデルの数学的能力を評価するために依然として広く使用されています。 IT Homeは、xAIのチャートによると、Grok 3の2つのバージョン(Grok 3 Reasoning BetaとGrok 3 mini Reasoning)が、AIME 2025においてOpenAIの現在利用可能な最良モデルであるo3-mini-highよりも優れたパフォーマンスを示したと指摘した。しかし、OpenAIの従業員はすぐにXプラットフォーム上で、xAIのチャートには「cons@64」条件下でのo3-mini-highのAIME 2025スコアが含まれていないことを指摘した。 「cons@64」は「consensus@64」の略で、ベンチマークテストにおいてモデルが各質問を64回試行し、最も頻繁な回答が最終回答として採用されることを意味します。ご想像のとおり、この方法はモデルのベンチマークスコアを大幅に向上させることがよくあります。このデータがグラフから省略されると、あるモデルが他のモデルよりもパフォーマンスが優れていると誤解される可能性がありますが、実際にはそうではない可能性があります。 AIME 2025において、「@1」条件(つまり、モデルの初回試行時のスコア)では、Grok 3 Reasoning BetaとGrok 3 mini Reasoningはo3-mini-highよりも低いスコアを記録しました。また、「中程度の計算」設定では、Grok 3 Reasoning BetaはOpenAIのo1モデルよりもわずかに低いスコアを記録しました。しかしながら、xAIは依然としてGrok 3を「世界で最も賢いAI」と自称しています。 バブシュキン氏はXプラットフォーム上で、OpenAIは自社のモデルのパフォーマンスを比較することを目的としたベンチマークチャートを以前にも同様に誤解を招く形で公開していたと主張した。 この論争では、中立的な第三者がより「正確な」チャートを描き直しました。 しかし、AI研究者のネイサン・ランバート氏が記事で指摘しているように、おそらく最も重要な指標、すなわち各モデルが最高スコアを達成するために必要な計算コスト(および費用)は未だに不明です。これはまさに、ほとんどのAIベンチマークがモデルの限界と強みを伝えるのに未だ不十分であることを示しています。 |