|
2月24日、DeepSeekのオープンソースの大規模モデルをめぐる世界的な話題を受けて、DeepSeekは2月21日にソーシャルメディアプラットフォームXで、今週から5つのコードリポジトリをオープンソース化することを発表しました。 本日、DeepSeek は最初のコードベースである Flash MLA をオープンソース化し、大きな注目を集め、GitHub で 4,500 を超えるスターを獲得しました。 Flash MLAは、DeepSeekによってNVIDIA Hopper GPU向けに最適化された高効率MLAデコードカーネルです。可変長シーケンス向けに特に最適化されており、現在製品化されています。 FlashMLA を使用するためのベースラインは、Hopper GPU、CUDA 12.3 以降、および PyTorch 2.0 以降です。 実際のテストによると、H800 SXM5 プラットフォーム (CUDA 12.6) 上の FlashMLA は、メモリ制限構成で最大 3000GB/秒の速度に達し、コンピューティング制限構成ではピーク速度 580 TFLOPS に達することができます。 この最適化により、FlashMLA は、高性能ハードウェア上の大規模な言語モデルやその他の AI アプリケーションの計算集約的な要求を効率的に処理できるようになります。 これまでにリリースされたコンテンツには、ブロック サイズが 64 の BF16 を使用したページ分割された kvcache (キー値キャッシュ) が含まれます。 謝辞のセクションで、チームは FlashMLA の設計は FlashAttention 2 および 3 と CUTLASS の技術的実装を参考にしていると述べています。 データによると、FlashAttentionはTransformerモデルにおけるアテンション計算のための効率的な最適化アルゴリズムです。これは2022年にスタンフォード大学チームによって提案されました。その主な目標は、ハードウェアを考慮したメモリ管理と計算プロセスのリファクタリングを通じて、長いシーケンスを処理する際のメモリ使用量と計算レイテンシを大幅に削減することです。 CUTLASS(CUDA Templates for Linear Algebra Subroutines)は、NVIDIA が提供するオープンソースの高性能コンピューティングライブラリで、GPU アクセラレーションを活用した線形代数計算(特に行列乗算と畳み込み)向けに特別に設計されています。その主な目標は、モジュール型テンプレートとハードウェアレベルの最適化を通じて、AI トレーニング、科学計算、グラフィックスレンダリングなどの分野をサポートする、柔軟で効率的な基盤コンピューティングカーネルを開発者に提供することです。 DeepSeek の以前の論文によると、大規模モデルのトレーニング コストを大幅に削減した重要なテクノロジが 2 つあります。それは、MoE と、本日オープンソース化された MLA (Multi-Head Latent Attention) です。 DeepSeek のコストには、MoE と MLA (Multi-head Latent Attention) という 2 つの主要なテクノロジーが関係します。 MLAは、従来のTransformerアーキテクチャの効率とパフォーマンスを最適化することを目的としています。その中核となる原則は次のとおりです。 キー値圧縮と潜在変数:この手法は、キーと値を低次元の潜在ベクトルに圧縮することで、推論中のキー値キャッシュを大幅に削減し、メモリ使用量を削減します。計算時には、次元を増やすことで元の情報を復元し、圧縮効率と計算精度のバランスを保ちます。 低ランク次元削減技術: クエリに対して低ランク圧縮 (次元削減の後に次元増加) を実行し、トレーニング中のアクティベーション メモリを削減しますが、この操作はキー値キャッシュには影響しないことに注意してください。 動的シーケンス処理: 可変長の入力シーケンスに最適化されており、さまざまな長さの文 (長いテキストのダイアログ シナリオなど) の効率的な処理をサポートします。 MLA はクエリのキーと値のペアあたりのキャッシュ サイズを 93.3% 削減できるため、大規模モデルのトレーニングと推論中のメモリ使用量が大幅に削減されます。 今日のオープンソースMLAは、DeepSeekのアテンションメカニズムにおける重要なイノベーションです。キー値圧縮や低ランク次元削減といった技術を通じて、効率的な長シーケンス処理とリソース最適化を実現し、DeepSeekのモデルがパフォーマンスにおいてリードする重要な技術の一つとなっています。 今週、DeepSeekはさらに4つのコードリポジトリをオープンソース化する予定です。どうぞお楽しみに!(Yi Yue) |
DeepSeek の最初のオープンソース プロジェクトである Flash MLA は、大規模モデルを低コストでトレーニングするための鍵を明らかにします。
関連するおすすめ記事
-
Appleは、M4チップ搭載のMacBook AirやiPadシリーズなど、一連の新製品を発売する予定です。
-
ユニツリー・ロボティクスの王星星氏:私たちのヒューマノイドロボットは今年上半期末までに毎秒10メートルの走行速度に達し、「ウサイン・ボルトを超える」と期待しています。
-
スマートオーディオデバイスの世界出荷量は11.2%増加し、新興市場が成長の主な原動力となった。
-
雷軍氏は、Xiaomi の OEM 実践について次のように回答しました。「すでにスマート製造部門が設立されており、2 つの工場ですでに生産が始まっています。」
-
CITIC証券:ヒューマノイドロボットの将来的な市場規模は、自動車業界や3C業界をはるかに上回ると予想されています。
-
報道によれば、フォルクスワーゲンはフォルクスワーゲンブランドの利益率目標を約2%から6.5%に引き上げたという。