SHOUJIKE

DeepSeek は、創設者 Liang Wenfeng が個人的に関与した NSA の研究結果を公開しました。

最近、AI企業DeepSeekは、海外のソーシャルメディアプラットフォームにおいて、ネイティブスパースアテンション(NSA)メカニズムの研究に焦点を当てた技術論文を発表しました。この論文は、研究内容の革新性だけでなく、意外な著者が参加していることからも、業界で大きな注目を集めています。

論文の筆頭著者である袁静阳(ユアン・ジンヤン)氏は、DeepSeekでのインターンシップ中にこの研究を完了しました。これは、彼自身とDeepSeek双方にとって大きな成果です。驚くべきことに、DeepSeekの創設者である梁文鋒氏もこの論文の著者として最後から2番目に名を連ねており、業界内で大きな議論を巻き起こしました。

論文の要約では、DeepSeekチームが次世代の大規模言語モデルにおけるロングコンテキストモデリングの重要性を認識していたことが指摘されています。しかしながら、既存の標準的なアテンション機構の複雑さは、シーケンス長が長くなるにつれてパフォーマンス向上のボトルネックとなります。NSA機構はまさにこの問題に対処するために提案されました。

NSA は長いシーケンスを効率的に処理できるため、モデルは書籍全体、コード リポジトリ、長文の対話などの大規模なデータを直接処理することができ、ドキュメント分析、コード生成、複雑な推論などの分野での大規模言語モデルの適用範囲が大幅に拡大します。

さらに、NSAは最新のハードウェア向けに最適化された設計を採用しており、推論速度の向上だけでなく、モデルのパフォーマンスを維持しながら事前学習コストも削減します。一般的なベンチマーク、長文タスク、指示ベースの推論において、NSAのパフォーマンスは、完全な注意ベースのモデルと同等か、それを上回ります。
DeepSeek チームは、スパース アテンション メカニズムが機能を維持しながらモデルの効率性を向上させる有望なアプローチになると考えています。

公開情報によると、NSAは長文テキストの学習と推論に特化して設計されたスパースアテンションメカニズムです。動的階層的スパース戦略などの高度な技術により、従来のAIモデルの学習と推論プロセスを大幅に最適化します。