|
10月20日のメディア報道によると、NVIDIAの最新の研究はAIの未来に革命を起こす可能性があり、同社の研究チームはNormalized Transformer (nGPT)と呼ばれる新しいニューラルネットワークアーキテクチャを提案している。 このアーキテクチャは、超球面上で表現学習を実行し、モデルの精度を維持しながら、大規模言語モデル (LLM) のトレーニング速度を最大 20 倍まで大幅に向上させることができます。 nGPT アーキテクチャの中核は、埋め込み、多層パーセプトロン (MLP)、注意行列、隠れ状態を含むすべてのベクトルを単位ノルムに正規化することにあります。 この正規化プロセスにより、入力トークンは超球面上を移動し、モデルの各レイヤーが変位を通じて最終的な出力予測に貢献します。 実験結果によると、nGPT ではトレーニング中に必要なステップ数が標準の Transformer モデルより 4 ~ 20 倍少なく、具体的な高速化はシーケンスの長さによって異なります。 たとえば、トレーニング速度は、1k コンテキストでは 4 倍、4k コンテキストでは 10 倍、8k コンテキストでは 20 倍向上します。 研究者らは、nGPT の最適化パスは超球面上の点から始まり、MLP と注意モジュールによって定義される変位を通じて最終出力予測に貢献すると指摘しています。 この方法は、トレーニング速度を向上させるだけでなく、モデルの安定性も向上させます。 |
AI の未来を書き換える可能性!NVIDIA の新しい nGPT はトレーニング速度を 20 倍向上させます。
関連するおすすめ記事
-
Robin Li: 過去 18 か月間で大規模モデルの分野で最も大きな変化があったのは、答えの精度です。
-
投資家たちはJiyueの従業員のためにこの惨状を清算しているが、ネットユーザーたちは「CEOは謝罪するだけで十分か?」と疑問を呈している。
-
Google は AI を活用した検索結果機能を世界 100 以上の市場に拡大し、月間アクティブ ユーザー数が 10 億人に到達しました。
-
Microsoft は独自の AI 機能を開発し、OpenAI への依存を減らして 365 Copilot の効率を向上することを目指しています。
-
テスラとSAICがFSDライセンスについて話し合っているとの報道に対し、公式に回答があった。
-
報告によると、昨年の世界の IT 支出は 5 兆ドルを超え、データ センター システムの支出が大幅に増加しました。