SHOUJIKE

非常に人気のあるDeepSeekは、そのコストと技術に関して疑問を投げかけています。コンピューティングパワーは将来も重要になるのでしょうか?

ビアン・ハイチュアン著

DeepSeekは近年、大規模AIモデルの分野で激しい議論を巻き起こし、驚異的なパフォーマンスと低コストの学習モードによって急速に世界的な注目を集め、高い人気を維持しています。しかし、同時に、そのコスト、技術、そして大規模モデルのための将来のインフラストラクチャとして提供される計算能力に関して、論争も巻き起こしています。

DeepSeek はコストに関する誤解に陥っているのでしょうか?

コストに関しては、DeepSeekのオリジナルレポートで詳細な計算方法が説明されています。「事前トレーニング段階では、DeepSeek-V3を各メガトークンでトレーニングするのに必要なH800 GPU時間はわずか18万時間で、これは2,048台のH800 GPUを搭載した当社のクラスターでは3.7日分に相当します。したがって、事前トレーニング段階は2ヶ月未満で完了し、2,664,000 GPU時間を消費しました。コンテキスト長の拡張に必要な119,000 GPU時間と事後トレーニングに必要な5,000 GPU時間を加えると、DeepSeek-V3の完全なトレーニングにはわずか278万8,000 GPU時間しかかかりません。H800 GPUのレンタル価格を1GPU時間あたり2ドルと仮定すると、総トレーニングコストはわずか557万6,000ドルです。」

これに対し、著名なSemiAnalysisによる最近のレポート「DeepSeekの議論:コスト、真のトレーニングコスト、クローズドモデルマージンへの影響に関する中国のリーダーシップ」では、DeepSeekの論文で言及されている600万ドルのコストは、事前トレーニングのGPUコストのみを指しており、これはモデルの総コストのごく一部に過ぎないと述べられています。DeepSeekのハードウェア支出は5億ドルをはるかに超えています。例えば、新しいアーキテクチャイノベーションの開発には、新しいアイデアやアーキテクチャのテスト、そしてアブレーション実験の実施に多大な投資が必要です。これらのアイデアの開発と実装には、チーム全体からの多大な人的資源とGPUコンピューティング時間が必要です。例えば、DeepSeekの重要なイノベーションであるマルチヘッド潜在的注意メカニズムの開発には、数か月かかりました。

偶然にも、海外メディアの報道によると、フェイフェイ・リー氏を含むスタンフォード大学とワシントン大学の研究者らは、50ドル未満で16個のNVIDIA H100 GPUを使用し、26分でトレーニングを完了し、s1-32Bと呼ばれる人工知能推論モデルを「作成」することに成功したという。

業界関係者の中には、DeepSeek モデルは低コストであるという主張は完全に正確ではないと考える者もいる。

武漢大学コンピュータ科学技術学院教授であり、中国人工知能協会メンタルコンピューティング委員会副委員長の蔡恒金氏は、DeepSeekが報告書の中で生成モデルのコストを明確に示していると述べた。初期投資に過度に重点を置く必要はない。特に国内産業のコストは非常に低いため、実際のコストは重要ではない。初期研究のコストも米国よりもはるかに低い。

蒸留業界では、これは一般的な慣行であり、双方にそれぞれ理由があります。

前述のコストのほかに、業界における DeepSeek をめぐる最大の論争は、蒸留技術を使用しているかどうか、また使用しているとすれば誰の技術を使用しているかという点です。

DeepSeek R1のリリース当時、OpenAIとMicrosoftの両社がメディアに対し、DeepSeekが自社の大規模AIモデルをOpenAIの独自モデルで学習させる際に「蒸留」技術を用いていると思われる事実を発見したと認めたことが、当初の懐疑的な見方につながりました。これにより、DeepSeekは特定のタスクにおいて、より低コストで同様の成果を達成することが可能になりました。OpenAIはこの証拠について詳細な情報を提供していませんが、利用規約では、ユーザーがOpenAIのサービスを「コピー」したり、「OpenAIと競合するモデルを開発するために出力データを使用すること」を禁止しています。

マスク氏はDeepSeekの最近の人気急上昇について異例にも沈黙を守っているものの、あるツイートに「いいね!」をしました。そのツイートでは、DeepSeekはモデル蒸留に大きく依存しており、学習にはChatGPT-4oとO1が必要だと言及されていました。モデル蒸留は、OpenAIの膨大なデータから重要な情報を迅速に抽出し、迅速な理解と応用を可能にする一般的な手法ですが、この手法によってDeepSeekはOpenAIに近づくことはあっても、真にOpenAIを超えることは難しいでしょう。

DeepSeek V3は海外だけでなく、国内でのテストでも異常な挙動を示しました。モデルはOpenAIのChatGPTを自称し、OpenAIのAPI使用方法の説明を提供しています。専門家は、これはChatGPTによって生成された大量のコンテンツ(つまり「蒸留」データ)が学習データに混入し、モデルに「アイデンティティの混乱」を引き起こしたためだと考えています。

さらに、中国科学院深圳先進技術研究所、北京大学、01.AI、南方科技大学、ライボウィッツAIなど、いくつかの著名な研究機関の研究チームが共同で発表した「大規模言語モデルの蒸留定量化」と題された論文によると、DeepSeek V3の蒸留プロセスは主にGPT4oに由来する可能性があり、蒸留の度合いは比較的高いことが示されています。

本論文では、応答類似性評価(RSE)とアイデンティティ一貫性評価(ICE)という2つの定量的指標を用いて、蒸留プロセスとその大規模モデルへの影響を定量化・評価するための体系的なフレームワークを提案する。RSE実験の結果、DeepSeek V3の蒸留レベルはGPT4oに近く、スコアは4.102であり、他のモデル(Llama 3.1-70BやDoubao-Pro-32kなど)よりも大幅に高いことが示された。ICE実験でもDeepSeek V3は高い蒸留レベルを示し、最も疑わしい応答を示すモデルの1つにランクインした。

蒸留技術をめぐる論争について、蔡衡金氏は、DeepSeekがGPTを完全に蒸留したという主張は誤りであると述べた。ChatGPTのモデルはクローズドソースであるのに対し、DeepSeekは模倣できない思考プロセスを示していると蔡氏は説明した。「DeepSeekは技術的に革新的であり、蒸留にこだわることは全く意味がない」と蔡氏は述べた。

蔡恒金氏は、DeepSeekには独自の技術的優位性があると考えています。ボトムアップで最適化し、NVIDIAのCUDAエコシステムをバイパスすることで、事前学習用の国産チップの性能を大幅に向上させることができます。

コンピューティング能力の呪いを打ち破り、コンピューティング能力は将来も依然として重要になるのでしょうか?

前述のコスト優位性を踏まえ、業界関係者の中には、DeepSeekの登場によってNVIDIAのような巨大テクノロジー企業にとって「コンピューティングパワーの蓄積」の道が断たれたと考えている者もいる。言い換えれば、アメリカのAI大手が資金と高性能チップでしか構築できないと考えているような優れたモデルは、もはやそれほど高い参入障壁を必要としないということだ。

蔡衡金氏は、これまでAIモデルの能力を向上させるには「計算能力を継続的に蓄積する」ことが唯一の方法だと信じていたと述べました。しかし、Deepseekの登場によって異なる道が開かれ、パラメータスケールを大幅に増やすことなく高性能を実現できることが実証され、必要な計算能力を少なくとも10分の1に削減できる可能性があります。「計算能力を蓄積する」こと自体は間違っていませんが、Deepseekの登場により、この方法は費用対効果が低いことがわかりました。

DeepSeek-V3の極めて低い学習コストは、大規模AIモデルに対する計算能力の需要が大幅に減少することを示唆しています。しかしながら、DeepSeekは優れたパフォーマンスを発揮する一方で、その統計的範囲は事前学習データのみを計算するという意見もあります。データのマッチングには広範な事前実験が必要であり、合成データの生成とクリーニングにも計算能力が消費されます。

さらに、コストの削減とトレーニングの効率性の向上は、コンピューティング能力の要件が減少することを意味するのではなく、大企業がよりコスト効率の高い方法を使用してモデル機能の限界を探索できることを意味するだけです。

コンピューティング能力について議論する際、業界の専門家は蒸気時代のジェヴォンズのパラドックスを例えとしてよく引用します。経済学者ウィリアム・スタンレー・ジェヴォンズが提唱したこのパラドックスは、資源の効率が向上し、その利用が容易になると、その総消費量は減少するよりも増加する傾向があるというものです。たとえば、蒸気機関の燃料効率の向上により、作業単位あたりの石炭コストが削減され、それがさらに産業活動を刺激し、石炭の総消費量の増加につながりました。蒸気機関の効率向上によって蒸気機関の需要が減るどころか、その技術が広く採用され、用途が拡大したことで、市場の需要がさらに増加し​​ました。DeepSeekの開発にも同様の傾向が見られます。コンピューティング能力の効率向上によってコンピューティング能力の需要が減るどころか、より高コンピューティング能力を必要とするアプリケーションの実装が促進され、結果として産業界におけるコンピューティング能力の需要が継続的に増加しています。

これに対し、CITIC証券の調査レポートは、DeepSeek-V3の最近の正式リリースがAI業界で大きな注目を集めていると指摘しています。これは、モデル性能を維持しながら、トレーニング効率と推論速度を大幅に向上させたためです。DeepSeekの新世代モデルのリリースは、大規模AIモデルの応用が徐々に普及し、AIアプリケーションの広範な実装を促進することを示しています。同時に、トレーニング効率の大幅な向上は、推論コンピューティング能力に対する需要の急成長にも貢献するでしょう。

ブルームバーグ インテリジェンスの最近のレポートによると、投資収益の実現や生産性の向上を目的とした推論面へのAI支出の増加に伴い、企業クライアントは2025年にAIへの投資を拡大する可能性があるとされています。

では、上記で述べた物議を醸した事実とは一体何なのでしょうか?諺にあるように、「塵は落ち着くまで」です!