|
10月20日のメディア報道によると、NVIDIAの最新の研究はAIの未来に革命を起こす可能性があり、同社の研究チームはNormalized Transformer (nGPT)と呼ばれる新しいニューラルネットワークアーキテクチャを提案している。 このアーキテクチャは、超球面上で表現学習を実行し、モデルの精度を維持しながら、大規模言語モデル (LLM) のトレーニング速度を最大 20 倍まで大幅に向上させることができます。 nGPT アーキテクチャの中核は、埋め込み、多層パーセプトロン (MLP)、注意行列、隠れ状態を含むすべてのベクトルを単位ノルムに正規化することにあります。 この正規化プロセスにより、入力トークンは超球面上を移動し、モデルの各レイヤーが変位を通じて最終的な出力予測に貢献します。 実験結果によると、nGPT ではトレーニング中に必要なステップ数が標準の Transformer モデルより 4 ~ 20 倍少なく、具体的な高速化はシーケンスの長さによって異なります。 たとえば、トレーニング速度は、1k コンテキストでは 4 倍、4k コンテキストでは 10 倍、8k コンテキストでは 20 倍向上します。 研究者らは、nGPT の最適化パスは超球面上の点から始まり、MLP と注意モジュールによって定義される変位を通じて最終出力予測に貢献すると指摘しています。 この方法は、トレーニング速度を向上させるだけでなく、モデルの安定性も向上させます。 |
AI の未来を書き換える可能性!NVIDIA の新しい nGPT はトレーニング速度を 20 倍向上させます。
関連するおすすめ記事
-
エヌビディア、中国での採用活動を強化:自動運転技術の研究開発の推進に全力で取り組む
-
劉強東さんは故郷に再び新年の贈り物を送り、小学校の教師一人一人に10万元の現金ボーナスを贈った。
-
NetEase からの内部メールでは、9 人の上級幹部が汚職の罪で刑事強制措置の対象となったと報告されている。
-
Arm CEO ルネ・ハース氏が、Intel の苦境、すなわちイノベーションと長期戦略の必要性について語る。
-
マスク氏:今年は数千台のヒューマノイドロボットを生産する予定で、その後も毎年その数は10倍に増える可能性がある。
-
878 日で建設されました。我が国初の商業宇宙発射施設が、処女飛行で大成功を収めました。