Appleの研究チームは20種類の高度なAIモデルをテストし、気をそらすものがあっても、簡単な算数の問題に対する成績は小学生よりも悪かったことを発見した。

IT Homeは11月2日、ロサンゼルス・タイムズ紙が昨日（11月1日）のブログ記事で、Appleの研究チームが最先端のAIモデル20種類をテストした結果、気を散らす要素がある場合の簡単な算数問題の成績が小学生よりも悪く、さらに悪かったと報じたと報じた。

Apple は、IT Home が以下に提供する次のような簡単な算術問題で、20 を超える最先端の AI モデルをテストしました。

オリバーは金曜日に44個、土曜日に58個、日曜日にはその2倍の数のキウイを摘みました。しかし、日曜日に摘んだキウイのうち5個は平均より小さかったです。オリバーは3日間で合計何個のキウイを摘んだでしょうか？

正解は190、計算式は44（金曜日）＋58（土曜日）＋88（44＊2、日曜日）となります。

しかし、テストされた20以上の最先端のAIモデルは干渉要因を排除することができず、キウイの大きさと数は無関係であるとは概ね理解できず、ほとんどの結果が185を示しました。

Appleのチームは、一見関連性があるように見えても実際には無関係な情報を含む質問に対して、AIモデルのパフォーマンスが急激に低下することを発見しました。この研究は、AIモデルが数学的概念の真の理解ではなく、トレーニングデータ内の言語パターンに主に依存していることを示唆しています。

Appleの調査によると、現在のAIモデルは「真の論理的推論を実行できない」ことが示されています。この発見は、AIが特定のタスクにおいて優れている一方で、その知能は見た目ほど信頼できるものではないことを改めて認識させるものです。

Appleチームは、データや計算能力を単純に拡大するだけでは、この問題を根本的に解決することはできないと指摘しています。Appleの論文は、AI機能への熱意を削ぐことではなく、むしろ合理的な理解を提供することを意図しています。

SHOUJIKE