|
IT Homeは1月20日、TechCrunchが昨日(1月19日)のブログ記事で、Epoch AIがOpenAIの資金調達を適時に開示しなかったことで論争を巻き起こしており、同社の数学ベンチマークであるFrontierMathの客観性が疑問視されていると報じた。 IT Homeは、主にOpen Philanthropyの資金提供を受けている非営利団体Epoch AIについて簡単に紹介しています。同団体は、専門家レベルの数学問題を統合することでAIモデルの数学的能力を測定・テストするFrontierMathベンチマークを立ち上げました。 OpenAI の o3 モデルは、EpochAI の FrontierMath ベンチマーク テストで他のモデルを圧倒的に上回り、25% の精度を達成しました。一方、他のモデルのスコアは約 2% でした。 Epoch AIの「Meemi」という名の請負業者は、LessWrongフォーラムに、OpenAIがベンチマークの構築に関与していることが公表されるまで、FrontierMathの貢献者の多くはそのことを知らなかったと投稿した。 ミーミ氏は次のように書いている。「コミュニケーションは完全に不透明です。エポックAIはOpenAIへの資金提供を開示すべきであり、請負業者はベンチマーク作業への参加を判断する際に、自らの作業がどのように能力向上に活用されるかについて透明性のある情報を得るべきだと考えます。」 FrontierMathベンチマークの設計に関わった6人の数学者は、OpenAIが独占的なアクセス権を持っていることを知らなかったと述べています。もし事前に知っていたら、参加しなかったかもしれません。 一部のソーシャルメディアユーザーは、この秘密主義が客観的なベンチマークとしてのFrontierMathの評判を損なうのではないかと懸念しています。OpenAIはFrontierMathへの資金提供に加え、ベンチマークの多くの問題と解答にもアクセスできます。これはEpoch AIが12月20日のo3リリース前に公表していなかった事実です。 エポックAIの副所長兼共同創設者であるタメイ・ベシログル氏は、ミーミ氏の投稿に対し、フロンティアマスの誠実さは損なわれていないと主張したが、同時にエポックAIが透明性を高めなかったことは「間違いを犯した」ことも認めた。 AI専門家のゲイリー・マーカス氏は、OpenAIの声明に疑問を呈し、今回の事件をセラノス事件に例えた。(注:セラノス事件は、エリザベス・ホームズ氏が設立した血液検査会社セラノスによる詐欺事件である。同社は、自社の技術でわずか数滴の血液で数百件の検査が可能だと主張していたが、最終的にその虚偽が暴露され、同社は倒産し、ホームズ氏は詐欺罪で有罪判決を受けた。) ベシログル氏は、OpenAI は FrontierMath のほとんどの質問と回答にアクセスできるが、「OpenAI が見たことのない予約済みデータセット」を使用してモデルを検証する能力があることを認めている。 ベシログルは書いた O3リリースの頃まで、私たちは共同研究の情報を開示することを制限されていました。今にして思えば、ベンチマークの貢献者との透明性をできるだけ早く維持するために、もっと努力すべきでした。私たちの数学者たちは、自分の研究成果に誰がアクセスできるのかを知るべきです。契約上制限があるとしても、貢献者との透明性はOpenAIとの契約において譲れない要素となるべきです。 |
OpenAI の o3 における圧倒的な AI 数学スコアが疑問視されている: プレイヤーと審査員の両方の役割を果たしている、Theranos 詐欺の繰り返しではないか?
関連するおすすめ記事
-
報道によると、百度の「Radish Express」サービスは香港で試験運用を行う計画で、空港での第一段階の試験は年末までに実施される予定だという。
-
欧州と米国の自動車市場の低迷により、イタリアの自動車産業は生産能力の低下と労働者の失業という危機に陥っている。
-
Anthropic Claude は、MCP サーバーの乗っ取りとパーソナライズされたスタイル設定の 2 つのアップデートをリリースしました。
-
TCL中環が稼働率を下げる決定をしたことで、従業員の辞職が相次いだ模様で、従業員によると9月はわずか3日しか働いていなかったという。
-
Macに大幅な変更!Appleは今週、複数のM4プロセッサ搭載Macをリリース予定
-
サムスンはメモアプリのバグを認めた。検索の不具合と描画の問題がクラッシュの原因となっている。