|
2 月 26 日、DeepSeek は、オープンソースの MLA デコード カーネル FlashMLA と DeepEP コードベースの発表に続き、オープンソース ウィークの 3 日目に DeepGEMM コードベースのリリースを発表しました。 DeepSeekは、DeepGEMMを簡潔かつ効率的なFP8汎用行列乗算(GEMM)用に設計されたライブラリであると説明しています。標準およびエキスパート混合(MoE)のグループ化GEMM演算をサポートし、V3/R1の学習と推論に強力な機能を提供します。CUDAで記述されたこのライブラリは、インストール時にコンパイルを必要とせず、すべてのカーネルは軽量なジャストインタイム(JIT)コンパイルモジュールを使用して実行時にコンパイルされます。 現在、DeepGEMMはNVIDIA Hopperアーキテクチャ演算のみをサポートしています。FP8テンソルコアにおける不正確な累積の問題を解決するため、CUDAコアを用いた2段階累積(プロモーション)方式を採用しています。コードベースは非常に簡潔で、コアカーネル関数は1つだけで、コード行数は約300行です。 軽量設計にもかかわらず、DeepGEMM のパフォーマンスは、さまざまなマトリックス形状にわたって専門家が調整したライブラリに匹敵するか、それを上回ります。 DeepSeek チームは、NVCC 12.8 を使用して、H800 上の DeepSeek-V3/R1 推論で可能なすべての形状 (事前パディングとデコードを含むが、テンソルの並列処理は含まない) をテストしました。 さらに、DeepGEMM を使用するための環境要件は次のとおりです。 * Hopper アーキテクチャ GPU、sm_90a をサポートしている必要があります * Python 3.8以上 * CUDA 12.3以上(12.8を推奨) * PyTorch 2.1以上 * CUTLASS 3.6以上 |
DeepSeek のオープンソース コードの 3 番目の部分: V3/R1 のトレーニングと推論のパワーを提供する DeepGEMM コードベース。
関連するおすすめ記事
-
小鵬汽車とフォルクスワーゲン・チャイナは協力を強化し、超急速充電ネットワークを共同で構築する。
-
イタリアのエネルギー大手Eniが、ヨーロッパで最も強力なスーパーコンピューターをリリース。世界で5番目に強力で、費用は1億ユーロを超える。
-
TechWeb イブニングニュース: Douyin が国際登録開始の噂に反応; Honor が正式にリーダーシップの変更を発表。
-
報道によると、日本政府は民間投資を誘致することを目指し、現物出資を通じて先端チップメーカーのラピダスの株式を取得する計画だという。
-
エヌビディアCEOジェンスン・フアン氏:「GB200はフル生産中で順調に進んでいる」
-
アップルは、200億ドルの契約上の権利を守るため、グーグルとの独占禁止法裁判の延期を要請した。