SHOUJIKE

IBM の専門家が DeepSeek を称賛: オープンソースへの野心と革新的なテクノロジーでテクノロジー大手に挑戦。

2月11日、IBMの技術ジャーナリスト、アイリ・マコノン氏は「DeepSeekの推論AIは、効率的にトレーニングされた小規模モデルの威力を発揮する」と題した記事を公開しました。IBMの専門家数名が、DeepSeekの推論能力とオープンソース戦略を称賛しました。

現在、DeepSeek-R1 の Llama 3.1 8B および Llama 3.3 70b の蒸留バージョンが IBM のエンタープライズ AI 開発プラットフォーム watsonx.ai で利用可能であり、ユーザーは安全な推論のために専用インスタンスを展開できます。

前述の記事で、IBMのAIハードウェア部門の主席研究科学者兼マネージャーであるカウタール・エル・マグラウイ氏は次のように述べている。「ディープシークは間違いなく人工知能の状況を一変させており、オープンソースへの野心と最先端の革新的技術で大手企業に挑戦している。」

「モデルコストに関する彼らの取り組みと、モデルのトレーニングに費やした時間は本当に印象的だ」とIBMの著名なエンジニア、クリス・ヘイ氏は語った。

「本当に素晴らしいのは、DeepSeekモデルの推論能力です」とIBMフェローのクッシュ・ヴァーシュニー氏は述べています。これらの推論モデルは本質的に自己検証、つまり自己照合を行うもので、一種の「メタ認知」、つまり「思考についての思考」を表しています。「私たちはこれらのモデルに知能を組み込み始めており、これは大きな前進です」とヴァーシュニー氏は述べています。

クッシュ・ヴァルシュニー氏も、世界的な AI 競争における地政学的な違いは人々が想像するほど重要ではないかもしれないと考えており、「モデルがオープンソースになれば、それがどこから来たかは多くの点でそれほど重要ではなくなる」と述べている。

以下は「DeepSeek推論AIが高効率トレーニングによる小型モデルの威力を実証」の全文です。

DeepSeek-R1は、中国のスタートアップ企業DeepSeekがリリースした人工知能(AI)モデルです。つい最近、オープンソースAIプラットフォーム「Hugging Face」で公開され、数時間でダウンロード数とアクティブ率でトップに躍り出ました。同時に、投資家がNVIDIAなどのチップメーカーの評価や、AI大手によるAI事業拡大のための巨額投資を再考するきっかけとなり、金融市場に混乱を引き起こしました。

なぜこれほどの騒ぎになっているのでしょうか?DeepSeek-R1は「推論モデル」と呼ばれるデジタルアシスタントです。数学およびコーディングタスクを対象としたAIベンチマークテストでは、OpenAIのo1と同等の性能を示しました。また、同社によると、システムの学習に必要なチップ数ははるかに少なく、コストも約96%削減されているとのことです。

「ディープシークは間違いなく人工知能の状況を一変させており、オープンソースへの野心と最先端の革新的技術で大手企業に挑戦している」とIBMのAIハードウェア部門の主席研究科学者兼マネージャーであるカウタール・エル・マグラウイ氏は述べた。

一方、TikTokの親会社である中国のテクノロジー大手ByteDanceは最近、独自の推論エージェント(AI)UI-TARSをリリースし、特定のベンチマークテストにおいてOpenAIのGPT-4o、AnthropicのClaude、GoogleのGeminiを上回る性能を発揮したと主張しています。ByteDanceのAIは、グラフィカルインターフェースを読み取り、推論を行い、自律的に段階的なアクションを実行できます。

スタートアップから大手企業まで、中国のAI企業は、オープンソース化や他企業やソフトウェア開発者との基盤となるソフトウェアコードの共有に積極的に取り組んでいることから、アメリカのAI企業との差を縮めつつあるようだ。IBMのGraniteモデル担当シニアテクニカルプロダクトマネージャー、アブラハム・ダニエルズ氏は、「DeepSeekはすでに、コミュニティ全体に非常に強力なモデルを展開しています。DeepSeekは、AIの民主化を加速させる可能性を秘めています」と述べている。DeepSeek-R1はHugging Faceで公開されており、MITライセンスに基づき、無制限の商用利用が可能となっている。

昨年夏、中国企業Kuaishouは、OpenAIのSoraに似た動画生成ツールを一般公開しました。Soraは2月にデビューしましたが、正式リリースされたのは12月で、その時点でもフル機能はChatGPT Proの加入者のみが利用できました。Hugging Faceの開発者は、中国のテクノロジー大手TencentとAlibabaの新しいオープンソースモデルも獲得しました。MetaはLlamaモデルをオープンソース化していますが、OpenAIとGoogleはモデル開発において基本的にクローズドソースのアプローチを維持しています。

オープンソースの利点に加え、DeepSeekのエンジニアがシステムのトレーニングに使用している高度に特化されたNVIDIAチップは、アメリカの競合他社が使用しているチップのほんの一部に過ぎません。例えば、DeepSeekのエンジニアがDeepSeek-V3モデルのリリース時に発表した研究論文では、モデルのトレーニングに必要なGPU(グラフィックス・プロセッシング・ユニット)またはチップはわずか2,000個であると述べられています。

推論モデル

「本当に素晴らしいのは、DeepSeekモデルの推論能力です」とIBMフェローのクッシュ・ヴァーシュニー氏は述べています。「これらの推論モデルは本質的に自己検証、つまり自己照合を行うもので、一種の『メタ認知』、つまり『思考についての思考』を表しています。私たちはこれらのモデルに知能を組み込み始めており、これは大きな前進です」とヴァーシュニー氏は述べました。

昨年9月、OpenAIがo1推論モデルをプレビュー公開した際、大きな話題となりました。推論プロセスを説明せずに単純に答えを提示する従来のAIモデルとは異なり、o1は複雑な問題を段階的に分解して解決します。推論モデルは分析結果を段階的に、あるいは「思考連鎖」的に反映するため、質問に答えるのに数秒から数分長くかかる場合があります。

強化学習

DeepSeek-R1は、思考連鎖推論と強化学習を組み合わせています。強化学習では、自律エージェントは人間のユーザーからの指示なしに、試行錯誤を繰り返しながらタスクの実行を学習します。強化学習は、教師あり学習や教師なし学習といった、より一般的に用いられる学習手法とは異なります。前者は手動でラベル付けされたデータを用いて予測や分類を行うのに対し、後者はラベル付けされていないデータから隠れたパターンを発見し、学習することを目指します。

DeepSeek-R1は、正解または不正解のラベル付き例を使ってモデルを訓練したり、隠れたパターンから情報を抽出したりすることで、推論能力が向上するという仮説に疑問を投げかけています。ミシガン州立大学の博士課程学生で、機械学習に関する数十本の論文を執筆しているYi-Hua Zhang氏は、「その核となる仮説は単純でありながら、それほど単純ではありません。報酬信号を通してモデルに正しい答えを教え、最適な思考方法を自ら見つけ出せるようにできるのでしょうか?」と述べています。

張一華氏は、従来の教師ありファインチューニングに慣れている彼や他の専門家にとって、「DeepSeekのような大規模な言語モデルが強化学習の報酬に頼るだけで『より良く考える』ことを学習できるのは本当に驚くべきことだ」とし、「モデルが一歩下がってエラーを発見し、自己修正できる本当の『アハ体験』を得られる」のが特に素晴らしいと語った。

コスト計算

DeepSeekを取り巻く話題の要因の一つは、その低価格です。同社が発表した技術レポートによると、クリスマスにリリースされたDeepSeek-V3のトレーニングコストは550万ドルでしたが、試用を検討している開発者にとっては大幅に安価です。「モデルのコスト削減に向けた彼らの取り組みと、モデルのトレーニングに費やした時間は、実に素晴らしいものです」と、IBMのディスティングイッシュド・エンジニアであるクリス・ヘイ氏は述べています。

しかし、IBMリサーチのGranite部門でテクノロジー製品管理ディレクターを務めるケイト・ソウル氏は、低価格だけが全てではないかもしれないと指摘する。550万ドルというコストは「計算コストのほんの一部に過ぎない」と彼女は言う。これには、オープンソースモデルを使用する場合であっても同社が独自に管理しているコストの詳細、例えば「強化学習、データ削減、ハイパーパラメータ探索の計算コスト」などは含まれていない。

DeepSeekは、トレーニングに必要なリソースを大幅に削減するハイブリッドエキスパート(MoE)アーキテクチャの採用により、間違いなく高いコスト効率を実現しています。MoEアーキテクチャは、AIモデルを個別のサブネットワーク(または「エキスパート」)に分割し、それぞれが入力データのサブセットの処理に特化します。ニューラルネットワーク全体をアクティブ化するのではなく、モデルは特定のタスクに必要な特定のエキスパートのみをアクティブ化します。そのため、MoEアーキテクチャは事前トレーニング時の計算コストを大幅に削減し、推論時のパフォーマンスを向上させます。過去1年間、フランスの大手AI企業MistralやIBMなど、世界中の多くの企業がMoEアーキテクチャを積極的に推進し、MoEとオープンソースを組み合わせることで効率性を向上させてきました。(例えば、IBMは2024年のThinkカンファレンスで、Red Hatと提携し、大規模モデル向けのオープンソースイノベーションを推進する革新的な大規模モデルアライメントアプローチであるInstructLabを発表しました。)

IBMのオープンソースGraniteモデル・スイート(MoEアーキテクチャーを用いて開発)を利用することで、企業は大規模な事前学習済みモデルを特定のアプリケーションやユースケースに合わせてカスタマイズすることで、より小規模でより適切なモデルを効率的に作成できるため、極めて低コストで最先端のモデル性能を実現できます。強力な機能を小規模で高密度なモデルに統合することで、これらのモデルはスマートフォンや、車載コンピューター、工場のスマートセンサーといったエッジで動作するモバイルデバイスで使用可能になります。

大規模モデルを、より小規模でリソース消費量の少ないモデルへと蒸留するプロセスも、DeepSeekの成功に貢献しています。この中国のスタートアップ企業は、代表的なR1モデルに加え、様々な用途に適した一連の小規模モデルをリリースしています。興味深いことに、彼らは大規模モデルをより小規模なモデルへと蒸留することで、最初から小規模なモデルで強化学習を開始するよりも優れた推論結果が得られることを実証しています。

人工知能の世界的な再編?

これらの新しいモデルが特定のベンチマークにおいて従来の競合製品と競合したり、凌駕したりする中で、世界のAI環境にどのような影響を与えるのでしょうか?エル・マグラウイ氏は、「世界のAI環境は、単なるベンチマークの性能ではなく、これらのモデルが安全かつ倫理的にエンドツーエンドで統合できるかどうかが重要です」と述べています。そのため、エル・マグラウイ氏は、DeepSeek-R1などの製品が「人間の相互作用、テクノロジー、そしてエンタープライズアプリケーションを変革する」かどうかを判断するのは時期尚早だと述べています。

最終的には「開発者の採用がDeepSeekモデルの普及を左右する」とダニエルズ氏は述べ、「開発者がこれらのモデルをどのように活用していくのか、多様なユースケースが発見されることを期待している」と期待を表明した。

IBMフェローのクッシュ・ヴァルシュニー氏によると、世界的なAI競争における地政学的な違いは、人々が想像するほど重要ではないかもしれないという。「モデルがオープンソース化されれば、その出所は多くの点でそれほど重要ではなくなる」と彼は述べた。(イー・ユエ)