SHOUJIKE

DeepSeek の最初のオープンソース プロジェクトである Flash MLA は、大規模モデルを低コストでトレーニングするための鍵を明らかにします。

2月24日、DeepSeekのオープンソースの大規模モデルをめぐる世界的な話題を受けて、DeepSeekは2月21日にソーシャルメディアプラットフォームXで、今週から5つのコードリポジトリをオープンソース化することを発表しました。

本日、DeepSeek は最初のコードベースである Flash MLA をオープンソース化し、大きな注目を集め、GitHub で 4,500 を超えるスターを獲得しました。

Flash MLAは、DeepSeekによってNVIDIA Hopper GPU向けに最適化された高効率MLAデコードカーネルです。可変長シーケンス向けに特に最適化されており、現在製品化されています。

FlashMLA を使用するためのベースラインは、Hopper GPU、CUDA 12.3 以降、および PyTorch 2.0 以降です。

実際のテストによると、H800 SXM5 プラットフォーム (CUDA 12.6) 上の FlashMLA は、メモリ制限構成で最大 3000GB/秒の速度に達し、コンピューティング制限構成ではピーク速度 580 TFLOPS に達することができます。

この最適化により、FlashMLA は、高性能ハードウェア上の大規模な言語モデルやその他の AI アプリケーションの計算集約的な要求を効率的に処理できるようになります。

これまでにリリースされたコンテンツには、ブロック サイズが 64 の BF16 を使用したページ分割された kvcache (キー値キャッシュ) が含まれます。

謝辞のセクションで、チームは FlashMLA の設計は FlashAttention 2 および 3 と CUTLASS の技術的実装を参考にしていると述べています。

データによると、FlashAttentionはTransformerモデルにおけるアテンション計算のための効率的な最適化アルゴリズムです。これは2022年にスタンフォード大学チームによって提案されました。その主な目標は、ハードウェアを考慮したメモリ管理と計算プロセスのリファクタリングを通じて、長いシーケンスを処理する際のメモリ使用量と計算レイテンシを大幅に削減することです。

CUTLASS(CUDA Templates for Linear Algebra Subroutines)は、NVIDIA が提供するオープンソースの高性能コンピューティングライブラリで、GPU アクセラレーションを活用した線形代数計算(特に行列乗算と畳み込み)向けに特別に設計されています。その主な目標は、モジュール型テンプレートとハードウェアレベルの最適化を通じて、AI トレーニング、科学計算、グラフィックスレンダリングなどの分野をサポートする、柔軟で効率的な基盤コンピューティングカーネルを開発者に提供することです。

DeepSeek の以前の論文によると、大規模モデルのトレーニング コストを大幅に削減した重要なテクノロジが 2 つあります。それは、MoE と、本日オープンソース化された MLA (Multi-Head Latent Attention) です。

DeepSeek のコストには、MoE と MLA (Multi-head Latent Attention) という 2 つの主要なテクノロジーが関係します。

MLAは、従来のTransformerアーキテクチャの効率とパフォーマンスを最適化することを目的としています。その中核となる原則は次のとおりです。

キー値圧縮と潜在変数:この手法は、キーと値を低次元の潜在ベクトルに圧縮することで、推論中のキー値キャッシュを大幅に削減し、メモリ使用量を削減します。計算時には、次元を増やすことで元の情報を復元し、圧縮効率と計算精度のバランスを保ちます。

低ランク次元削減技術: クエリに対して低ランク圧縮 (次元削減の後に次元増加) を実行し、トレーニング中のアクティベーション メモリを削減しますが、この操作はキー値キャッシュには影響しないことに注意してください。

動的シーケンス処理: 可変長の入力シーケンスに最適化されており、さまざまな長さの文 (長いテキストのダイアログ シナリオなど) の効率的な処理をサポートします。

MLA はクエリのキーと値のペアあたりのキャッシュ サイズを 93.3% 削減できるため、大規模モデルのトレーニングと推論中のメモリ使用量が大幅に削減されます。

今日のオープンソースMLAは、DeepSeekのアテンションメカニズムにおける重要なイノベーションです。キー値圧縮や低ランク次元削減といった技術を通じて、効率的な長シーケンス処理とリソース最適化を実現し、DeepSeekのモデルがパフォーマンスにおいてリードする重要な技術の一つとなっています。

今週、DeepSeekはさらに4つのコードリポジトリをオープンソース化する予定です。どうぞお楽しみに!(Yi Yue)