SHOUJIKE

Amazon Web Services (AWS) が次世代 AI トレーニング チップ、Amazon Trainium 3 をリリースしました。

12月5日、Amazon Web Servicesは、2024 re:Inventグローバルカンファレンスにおいて、次世代AIトレーニングチップ「Amazon Trainium 3」を発表しました。

報道によると、Trainium 3はAmazon Web Services初の3ナノメートルプロセスで製造されたチップです。次世代の最先端の生成AIワークロードに求められる高性能要件を満たすよう特別に設計されており、パフォーマンス、エネルギー効率、密度において新たなベンチマークを確立します。Trainium 3を搭載したUltraServerは、Trn2 UltraServerの4倍の性能を発揮すると予想されており、モデル構築時の反復処理を高速化し、導入時には優れたリアルタイム性能を提供します。最初のTrainium 3ベースのインスタンスは、2025年末までに稼働開始予定です。

さらに、カンファレンスでは、Amazon Trainium2 をベースとした Amazon Elastic Compute Cloud (Amazon EC2) Trn2 インスタンスの正式な提供開始も発表され、新しい Amazon EC2 Trn2 UltraServer が発表されました。これにより、ユーザーは最新の人工知能モデルや将来の大規模言語モデル (LLM) および基礎モデル (FM) を優れたコストパフォーマンスでトレーニングおよび展開できるようになります。

Amazon EC2 Trn2インスタンスは、既存のGPUベースのEC2 P5eおよびP5enインスタンスと比較して、30~40%のパフォーマンス向上を実現します。16個のTrainium2チップを搭載し、最大20.8ペタフロップスの浮動小数点演算性能を実現します。

Amazon EC2 Trn2 UltraServersサーバーは、NeuronLink高速相互接続テクノロジーを搭載した64個のTrainium 2チップを相互接続し、最大83.2ペタフロップスの浮動小数点演算性能を提供します。これは、単一インスタンスの4倍のコンピューティング、メモリ、ネットワーク性能に相当し、超大規模モデルのトレーニングとデプロイを可能にします。

先週、アマゾンはアントロピックへの2度目の40億ドルの投資とビジネス協力の深化を発表した。

2024 re:Invent グローバル カンファレンスでは、Anthropic と Amazon Web Services の協力関係強化の一環として、Anthropic が Claude モデルを Amazon Trainium 2 で実行できるように最適化を開始したことが明らかになりました。

一方、Amazon Web Services(AWS)はAnthropicと共同で、Project Rainierと呼ばれるEC2 UltraClusterコンピューティングクラスターの構築を進めています。Trn2 UltraServerで構成されるこのクラスターは、第3世代の低レイテンシ、ペタバイト規模のEFAネットワークを介して、数十万個のTrainium 2チップに分散モデルトレーニングを実行できます。そのコンピューティングパワーは、Anthropicの現世代の主要AIモデルのトレーニングに必要なパワーの5倍以上です。完成すれば、このプロジェクトはAnthropicが将来のモデルを構築・展開するための世界最大規模のAIコンピューティングクラスターになると期待されています。(Guo Qing)