SHOUJIKE

OpenAI の最新調査: 現在の AI モデルはまだ人間のプログラマーに匹敵できません。

2月24日 - OpenAIのCEOサム・アルトマン氏は、今年末までにAIモデルが「低レベル」のソフトウェアエンジニアを上回るようになると主張しているが、同社の最新の研究によると、現在利用可能な最も高度なAIモデルでさえ人間のプログラマーに匹敵することはできないことが示唆されている。

研究者たちは新たな論文の中で、最先端のモデル、つまり最も革新的で画期的なAIシステムでさえも、「依然としてほとんどの」プログラミングタスクを解くことができないと指摘しています。この問題に対処するため、彼らはフリーランスサイトUpworkに掲載された1400件以上のソフトウェアエンジニアリングタスクに基づいて、SWE-Lancerと呼ばれる新しいベンチマークツールを開発しました。このベンチマークを用いて、OpenAIは独自のo1推論モデル、主力製品であるGPT-4o、そしてAnthropicのClaude 3.5 Sonnetという3つの大規模言語モデル(LLM)をテストしました。

具体的には、この新しいベンチマークは、Upworkにおける2種類のタスク(脆弱性の修正と修復策の実施を含む個別タスクと、よりマクロ的な視点から高レベルの意思決定を行う必要がある管理タスク)の処理におけるこれらのLLMのパフォーマンスを評価します。なお、テストプロセス中はこれらのモデルがインターネットへのアクセスを禁止されていたため、既にオンラインで利用可能な類似のソリューションを直接コピーすることはできませんでした。

Upworkでこれらのモデルが実行するタスクの価値は数十万ドルに達していますが、ソフトウェアの表面的な問題を解決するだけで、大規模プロジェクトの脆弱性とその根本原因を真に発見することはできません。このような「中途半端な」解決策は、AIを扱った経験のある人にとっては馴染みのないものではありません。AIは自信に満ちた情報を出力するのが得意ですが、注意深く検証すると多くの欠陥が見つかることが多いのです。

論文では、これら 3 つの LLM は通常「人間よりもはるかに速く」タスクを完了できるが、脆弱性の広がりとそのコンテキストを理解できず、「不正確または不完全な」ソリューションが生まれると指摘しています。

研究者らは、Claude 3.5 Sonnetが他の2つのOpenAIモデルよりも優れた性能を示し、o1やGPT-4oよりも多くのポイントを「獲得」したと説明した。しかし、その解答の大部分は依然として不正解であった。研究者らは、どんなモデルでも現実世界のプログラミングタスクに真に使用可能であるためには「より高い信頼性」が必要であると指摘した。

つまり、この論文は、これらの最先端モデルはいくつかの詳細なタスクを迅速に処理できるものの、これらのタスクを処理するスキル レベルは人間のエンジニアのそれに比べてまだはるかに劣っていることを示唆しているようです。

近年、これらの大規模言語モデルは急速に発展し、継続的な進歩を遂げていますが、ソフトウェアエンジニアリングにおける現在のスキルレベルは、人間を置き換えるには依然として不十分です。しかし、IT Homeは、一部のCEOが人間のプログラマーを解雇し、開発途上のAIモデルを採用する動きが止まらないと指摘しています。(Yuanyang)