SHOUJIKE

AI の未来を書き換える可能性!NVIDIA の新しい nGPT はトレーニング速度を 20 倍向上させます。

10月20日のメディア報道によると、NVIDIAの最新の研究はAIの未来に革命を起こす可能性があり、同社の研究チームはNormalized Transformer (nGPT)と呼ばれる新しいニューラルネットワークアーキテクチャを提案している。

このアーキテクチャは、超球面上で表現学習を実行し、モデルの精度を維持しながら、大規模言語モデル (LLM) のトレーニング速度を最大 20 倍まで大幅に向上させることができます。

nGPT アーキテクチャの中核は、埋め込み、多層パーセプトロン (MLP)、注意行列、隠れ状態を含むすべてのベクトルを単位ノルムに正規化することにあります。

この正規化プロセスにより、入力トークンは超球面上を移動し、モデルの各レイヤーが変位を通じて最終的な出力予測に貢献します。

実験結果によると、nGPT ではトレーニング中に必要なステップ数が標準の Transformer モデルより 4 ~ 20 倍少なく、具体的な高速化はシーケンスの長さによって異なります。

たとえば、トレーニング速度は、1k コンテキストでは 4 倍、4k コンテキストでは 10 倍、8k コンテキストでは 20 倍向上します。

研究者らは、nGPT の最適化パスは超球面上の点から始まり、MLP と注意モジュールによって定義される変位を通じて最終出力予測に貢献すると指摘しています。

この方法は、トレーニング速度を向上させるだけでなく、モデルの安定性も向上させます。