SHOUJIKE

「地球上で最も賢い AI」と謳われる Grok 3 がリリースされ、トップクラスの AI モデル間の競争が激化している。

2月18日北京時間正午、イーロン・マスク氏のAIスタートアップ企業xAIは、マスク氏が「地球上で最も賢いAI」と呼ぶGrok 3をリリースしました。Grok 3のリリースは、既に白熱しているモデル戦争を新たなクライマックスへと押し上げることは間違いありません。

Grok3 ライブデモ

ライブ配信中、マスク氏は同社のエンジニア3人とともに、火星探査機の打ち上げ時期の計算にGrok3を使用する方法や、テトリスとキャンディークラッシュのゲームを1つに「統合」する方法などのライブデモンストレーションを行った。

「Tetris と Bejeweled のゲームプレイを組み合わせた 2D ゲームを開発する」という自然言語の指示のみを使用して、Grok3 がコア コードを生成およびデバッグするデモは特に印象的でした。

デモ中、マスク氏はユーザーに、Grok 3 の pygame コンポーネントを使用して、テトリスと Bejeweled を組み合わせたゲームを設計するよう依頼しました。

また、コードが非常に長くなる可能性があるため、ファイルに保存する必要があることも示しています。正常に実行されると、生成されたゲームはテトリスの古典的なゲームプレイを維持し、「同じ色の除去」という新しいルールを追加します。

記者会見でマスク氏は、2026年の火星探査ミッションを含む今後のすべてのSpaceXの打ち上げはGrok 3のAIによって支援されるだろうと述べた。

その後、出席していたエンジニアたちはGrok-3に、その場で宇宙船の打ち上げの3Dアニメーションを生成するよう指示しました。Grok-3がコードを生成した後、マスク氏のチームがコードを実行すると、画面には地球と火星の間を往復する宇宙船のアニメーションが表示されました。これは、複雑な物理法則をAIモデルに非常に高いレベルで理解させるGrok-3のプログラミング能力を浮き彫りにしました。

マスク氏は、「Grok-3の打ち上げに大変興奮しています。非常に短期間で、その能力はGrok-2よりも桁違いに強力になると確信しています。これは素晴らしいチームの努力のおかげであり、このような素晴らしいチームと共に働けることを光栄に思います」と述べました。さらに、3年以内にコンピューターが様々な面で人間の能力を超え、ノーベル賞レベルのブレークスルーを達成すると予測しました。

推論能力は競争相手を上回る

プレゼンテーションでは、Grok3とGrok-3 miniが、数学的推論、科学的論理推論、その他多くの分野において、Gemini、DeepSeek、ChatGPTなどの競合製品を凌駕、あるいは凌駕する性能を示したことが示されました。さらに、xAIはより強力なGrok3 Thinking推論モードも発表しました。

具体的には、Grok3 は、AIME'24 (American Mathematics Competition) や GPQA (Graduate Level Science Knowledge Assessment) などのテストで、Grok3 は Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet、GPT-4o よりも優れた成績を収めました。

特に推論においては、Grok 3 ReasoningとGrok 3 mini ReasoningはAIME'24やGPQAなどのテストで圧倒的な優位性を発揮し、最高スコアは96点に達し、o3 mini(high)、o1、DeepSeek-R1といった最先端モデルを凌駕しました。最新のAIME 2025評価でも、Grok3推論シリーズモデルは90点以上のスコアを獲得し、o3 mini(high)の87点をわずかに上回りました。

さらに、Chatbot Arena の評価では、Grok-3 は 1400 ポイントを獲得し、Gemini シリーズ、chatgpt-4o、DeepSeek-R1 を上回りました。

Gemini と比較して、Grok 3 は複雑な問題を扱う際に正しい答えを提供するだけでなく、問題解決のプロセスを詳細に説明し、ユーザーが基礎となるロジックを理解するのに役立つ点も特筆に値します。

Grok3は、優れた数学、プログラミング、推論機能に加え、大幅に強化されたマルチモーダル機能も備えています。さらに、Grok3はDeepSearchを搭載しており、インターネットとXプラットフォーム(旧Twitter)をスキャンして情報サマリーを提供することで、ユーザーが最新の技術情報を見つけるのに役立ちます。

記者会見では、xAIチームが2025年NCAAマーチマッドネスバスケットボールトーナメントの全勝敗を予測しました。Grok 3は最終的に2025年のNCAAチャンピオンを予測しました。この予測が正しかったかどうかは、3月に明らかになります。

ライブ配信中、xAIチームはGrokのトレーニング中に大規模なコンピューティングクラスターを構築し、放熱や電源供給といった課題を克服したことを実演しました。最初の10万基のGPUを稼働させ、正常に動作させるまでに122日かかりました。彼らは将来的にクラスターの規模を2倍に拡大する計画です。

最後に、マスク氏はGrokに早ければ1週間後に「音声モード」が搭載されると述べました。数週間後には、Grok 3モデルがDeepSearch機能とともにxAIのエンタープライズAPIに登場します。そして、次バージョンが完全リリースされた時点で、以前のバージョンのGrokをオープンソース化する予定です。

皮肉なことに、Grok 3のリリース数時間前、OpenAIのCEO兼共同創設者であるサム・アルトマン氏は、要求の厳しいテスターに​​とってGPT-4.5のAGIの使用体験は予想をはるかに超えるものだったと述べました。GPT-4.5はすでにテスト段階に入り、正式リリースも間近に迫っているようです。

Grok-3のリリースにより、主要なAI大規模モデル間の競争が激化することが予想されます。(Yu Feng)