SHOUJIKE

DeepSeek のオープンソース ウィークが終了し、世界は変わりました。

3月1日、DeepSeekの5日間の「オープンソースコードウィーク」が終了したことが報じられました。

今週の月曜日から金曜日にかけて、DeepSeek は FlashMLA、DeepEP 通信ライブラリ、DeepGEMM、並列最適化戦略、並列ファイルシステム 3FS をカバーする複数のオープンソース コード リポジトリを不定期の毎日更新頻度でリリースしました。

DeepSeek は、汎用人工知能 (AGI) は「象牙の塔」の中に存在するのではなく、ガレージ スタートアップの精神を受け入れ、コミュニティと協力して革新的な力を構築するものだと考えています。

5日間にわたるオープンソースリリースでは、大規模モデルのトレーニング、推論、通信、ファイルシステムの最適化におけるDeepSeekの技術革新とブレークスルーが披露されました。これらのオープンソースプロジェクトは、AIモデルのパフォーマンスと効率性を向上させるだけでなく、AI分野の研究者や開発者にとって貴重なリソースとツールを提供します。

モデルのオープンソース化からコードのオープンソース化まで、DeepSeek は大規模モデルの世界を単独で再形成してきました。

Nvidiaの失墜

今週、AIビッグデータモデルの台頭以来​​最大の勝者(そして最大の利益)であるNVIDIAが最新の財務報告書を発表しました。しかし、同社の株価はここ数日下落しており、130ドル超から120ドル前後まで下落しています。

NVIDIAの2025年度第4四半期の売上高は前年同期比78%増加しましたが、これは過去5四半期連続の3桁成長から大幅に減速し、約2年ぶりの低水準となりました。成長率は過去最高を記録した2024年度第4四半期の265%でした。

アナリストは、Nvidia の収益成長の鈍化は主に 2 つの要因によるものだと考えています。1 つ目は、Microsoft や Meta などの主要顧客が、Nvidia への依存を減らすために同時に独自のチップを開発していること、2 つ目は、DeepSeek-R1 の低コスト AI モデルによって計算能力の要件が軽減され、市場の Nvidia のハイエンド チップへの依存が部分的に弱まっていることです。

その日、NVIDIAの株価は8.5%急落し、時価総額は2,740億ドル消失した。

1か月前、DeepSeekが低コストで高性能なオープンソース推論モデルR1をリリースしたことで市場に波紋が広がり、Nvidiaの株価は一時17%近く急落した。

NVIDIA CEOのジェンスン・フアン氏は、DeepSeekのオープンソースツールと低コストモデルが業界に影響を与えていると強調したが、NVIDIAはソフトウェアとハ​​ードウェアの共同最適化を通じてAIチップ分野で主導的な地位を維持している。

しかし、投資家たちは、収益成長の鈍化、粗利益率の低下、そして中国のAI企業DeepSeekの影響について懸念を抱き続けている。

同業の人たちも変化してきた。

OpenAIの最新の大規模モデルGPT-4.5は、高価すぎると批判されている。

クローズドソースの大規模モデルのトップであるOpenAIは、最新かつ最も強力なモデルであるGPT-4.5を金曜日にリリースした。これは最も高価でもある。

GPT-4.5は、パラメータスケールの点でOpenAI史上最大のモデルであり、計算コストは​​前世代の10倍です。GPT-4.5のAPI価格は100万トークンあたり75ドルで、前世代のGPT-4oの2.50ドルと比べて30倍の値上げとなります。

GPT-4.5は推論に重点を置いたモデルではありません。GPT-4.5はGPT-4oを完全に置き換えることはできません。ベンチマークテストでは、一部の機能がo1およびo3-miniよりも劣っています。

この大規模モデルは、ネットユーザーから「法外な値段」と批判され、OpenAIがこれまでにリリースした主力大規模モデルのような称賛と議論の波を起こすことはできませんでした。今では、DeepSeekを使って批判する人が増えています。「無料で使いやすいオープンソースのDeepSeekがあるのに、なぜあなたのDeepSeekにそんなにお金をかける必要があるのですか?」

添付されているのは、DeepSeek コードのオープンソース ウィークのコンテンツです。

2月24日: Flash MLA オープンソース

(詳細はこちら:https://www.techweb.com.cn/it/2025-02-24/2957370.shtml)

オープンソース コンテンツ: DeepSeek は、NVIDIA Hopper GPU 向けに最適化された高効率 MLA (Multi-head Latent Attention) デコード カーネルである Flash MLA をオープンソース化しました。

主な機能:可変長シーケンス向けに最適化されており、Hopper GPU、CUDA 12.3以降、PyTorch 2.0以降をベンチマークテスト済みです。H800 SXM5プラットフォームでは、メモリ制約のある構成で最大3000GB/秒、コンピューティング制約のある構成で最大580TFLOPSを達成できます。

技術的なハイライト:FlashMLAの設計は、FlashAttention 2および3、そしてCUTLASSの技術的実装を参考にしています。KV圧縮や潜在変数、低ランク次元削減、動的シーケンス処理といった最適化により、大規模モデルの学習および推論におけるメモリ使用量を大幅に削減します。

2月25日: DeepEP通信ライブラリがオープンソース化されました。

(詳細はこちら:https://www.techweb.com.cn/it/2025-02-25/2957421.shtml)

オープンソース コンテンツ: DeepSeek は、MoE (Mixed Expert) モデルのトレーニングと推論のための EP (Expert Parallelism) 通信ライブラリである DeepEP をオープンソース化しました。

主な機能:すべてのGPUコアに高スループットと低レイテンシを提供し、低精度演算(FP8を含む)をサポートします。NVLinkからRDMAへの非対称帯域幅転送シナリオ向けに高度に最適化されており、高スループットを実現し、SM数量制御をサポートします。

技術的ハイライト:遅延に敏感な推論デコードのために、DeepEPは低遅延カーネルセットと純粋なRDMAを採用し、遅延を最小限に抑えます。同時に、SMリソースを消費しないフックベースの通信計算オーバーラップ方式も導入されています。

2月26日: DeepGEMMコードベースがオープンソース化されました

(詳細:https://www.techweb.com.cn/it/2025-02-26/2957487.shtml)

オープンソース コンテンツ: DeepSeek は、簡潔で効率的な FP8 一般行列乗算 (GEMM) 用に設計された DeepGEMM コードベースをオープンソース化しました。

コア機能:GEMM演算の標準およびエキスパート混合(MoE)グループ化をサポートし、V3/R1の学習と推論に強力な機能を提供します。CUDAで記述されているため、コンパイルは不要です。すべてのカーネルは、軽量なジャストインタイム(JIT)コンパイルモジュールによって実行時にコンパイルされます。

技術的ハイライト:DeepGEMMは約300行のコードという簡潔な設計を誇りながら、様々な行列形状において専門家がチューニングしたライブラリと同等、あるいはそれを上回るパフォーマンスを発揮します。H800でテストした結果、最大1358 TFLOPSの計算性能と最大2668 GB/sのメモリ帯域幅を実現しました。

2 月 27 日: 並列最適化戦略がオープンソース化されました。

(詳細は、https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml をご覧ください)

オープンソース コンテンツ: DeepSeek は、DualPipe、EPLB、Profile-data を含む 3 つの並列最適化戦略をオープンソース化しています。

DualPipe: V3/R1 モデルのトレーニングで計算と通信をオーバーラップする双方向パイプライン並列アルゴリズム。パイプライン バブル (アイドル時間) を大幅に削減します。

EPLB: 推定されたエキスパート負荷に基づいてバランスの取れたエキスパートレプリケーションおよび配置計画を計算する、V3/R1 用のエキスパート並列負荷分散ツール。

プロファイル データ: トレーニングおよび推論フレームワークからのパフォーマンス プロファイリング データを含む、DeepSeek インフラストラクチャ内のデータ分析。コミュニティが通信と計算の重複戦略と関連する基礎的な実装の詳細をより深く理解できるように設計されています。

2月28日: 3FSファイルシステムがオープンソース化

(詳細:https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml)

オープンソース コンテンツ: DeepSeek は、高性能並列ファイル システムである Fire-Flyer ファイル システム (3FS) をオープンソース化しました。

主な機能:AIトレーニングおよび推論ワークロードの課題に対応するため、最新のSSDとRDMAネットワークを活用して共有ストレージ層を提供し、分散アプリケーションの開発を簡素化します。180個のストレージノードで構成される大規模テストクラスターでは、総読み取りスループットは約6.6 TIB/秒に達しました。

技術的なハイライト: 3FS の主な機能と利点には、パフォーマンスと可用性、強力な一貫性、ファイル インターフェイス開発、多様なワークロード (データ準備、データ ローダー、チェックポイント、推論用の KVCache など) などがあります。