SHOUJIKE

アマゾンは次世代ベースモデル「Amazon Nova」を発表し、来年半ばまでにマルチモーダルからマルチモーダルへのモデルを展開する予定だ。

Amazonは12月4日、グローバルカンファレンス2024 re:Inventで、Amazon Bedrockで利用可能となる次世代ベースモデル、Amazon Novaの発売を発表しました。

Amazon Nova には 4 つの高度なモデルが含まれます。

1. Amazon Nova Micro は、非常に低いレイテンシとコストで応答を提供するテキストのみのモデルです。

2. Amazon Nova Lite は、画像、ビデオ、テキスト入力を迅速に処理できる、コスト効率に優れたマルチモーダルモデルです。

3. Amazon Nova Pro は、精度、速度、コストのバランスに優れ、さまざまなタスクに適した強力なマルチモーダル モデルです。

4. Amazon Nova Premier は、複雑な推論タスク向けに設計された Amazon の最上位マルチモーダル モデルであり、カスタム モデルを抽出するための「教師モデル」として使用できます。

現在、Amazon Nova Micro、Amazon Nova Lite、Amazon Nova Pro はすべて正式に利用可能であり、Amazon Nova Premier は 2025 年第 1 四半期に利用可能になる予定です。

さらに、Amazon は、高品質の画像を生成する Amazon Nova Canvas と、高品質のビデオを生成する Amazon Nova Reel という 2 つの新しいモデルをリリースしました。

Amazon Nova Canvas は、入力テキストまたは画像からプロ仕様のビジュアルコンテンツを生成できる高度な画像生成モデルです。便利な編集機能を備えており、テキスト入力で画像を簡単に調整したり、配色やレイアウトを制御したりできます。内蔵のセキュリティコントロールにより、各画像の出所を追跡できる透かし機能や、潜在的に有害なコンテンツを制限するコンテンツモデレーションなど、AI の安全かつ責任ある利用が保証されます。サードパーティの比較評価によると、Amazon Nova Canvas は OpenAI の DALL-E 3 や Stable Diffusion をパフォーマンスで上回り、主要な自動化メトリクスにおいて優れた性能を発揮しています。

Amazon Nova Reelは、テキストと画像から高品質な動画を簡単に作成できる高度な動画生成モデルです。広告、マーケティング、トレーニングなどのコンテンツ作成に最適です。自然言語プロンプトを使用して、カメラの動き、回転、ズームなどの視覚的なスタイルとペースを制御できます。サードパーティの評価によると、Amazon Nova Reelは品質と一貫性において類似モデルを上回っており、RunwayのGen-3 Alphaで生成された動画よりもAmazon Nova Reelで生成された動画の方が好まれています。Amazon Nova Canvasと同様に、Amazon Nova Reelにも透かしやコンテンツモデレーションなどのセキュリティコントロールが組み込まれています。現在、Amazon Nova Reelは6秒の動画生成をサポートしており、今後数か月以内に最長2分間の動画のサポートが追加される予定です。

Amazon Nova モデルと主流の大規模モデルのパフォーマンス比較

AmazonはAmazon Novaモデルを対象に、業界標準のベンチマークテストを広範囲に実施しました。その結果、Amazon Nova Micro、Amazon Nova Lite、Amazon Nova Proは、それぞれのカテゴリーにおける最上位モデルと比べても遜色ない性能を示しました。

Amazon Nova Microは、適用可能な11のベンチマークすべてにおいてMetaのLLaMa 3.1 8Bと同等以上のパフォーマンスを示し、適用可能な12のベンチマークすべてにおいてGoogle Gemini 1.5 Flash-8Bと同等以上のパフォーマンスを示しました。業界をリードする毎秒210トークンの出力速度を備えたAmazon Nova Microは、迅速な応答が求められるアプリケーションに最適です。

Amazon Nova Lite は、類似モデルの中でも非常に競争力があります。OpenAI の GPT-4o mini と比較した場合、19 のベンチマークのうち 17 で同等以上のパフォーマンスを発揮します。Google の Gemini 1.5 Flash-8B と比較した場合、21 のベンチマークのうち 17 で同等以上のパフォーマンスを発揮します。また、Anthropic の Claude Haiku 3.5 と比較した場合、12 のベンチマークのうち 10 で同等以上のパフォーマンスを発揮します。テキストベンチマークで優れた精度を示すことに加えて、Amazon Nova Lite は、VATEX、ChartQA、DocVQA などのベンチマークで証明されているように、ビデオ、チャート、ドキュメントの理解でも優れています。さらに、Amazon Nova Lite は、Berkeley Function Calling Leaderboard での関数呼び出し機能や、VisualWebBench および Mind2Web で実証されているように、ブラウザやコンピュータ画面でアクションを実行するための視覚要素を理解するコア機能など、エージェントワークフローでも非常に優れたパフォーマンスを発揮します。

Amazon Nova Proは、20回のベンチマークテストのうち17回でOpenAIのGPT-4oを上回り、21回のベンチマークテストのうち16回でGoogleのGemini 1.5 Proと同等または上回り、20回のベンチマークテストのうち9回でAnthropicのClaude Sonnet 3.5v2を上回りました。テキストおよび視覚知能ベンチマークにおける精度に加え、Amazon Nova Proは、Comprehensive RAG (CRAG)、Berkeley Function Calling Leaderboard、Mind2Webなどのベンチマークで実証されているように、指示追従やマルチモーダルエージェントワークフローにおいても優れた性能を示しました。

多言語およびマルチモーダルサポート、長いコンテキスト処理機能

Amazon Nova Micro、Lite、Proは200以上の言語をサポートしています。Amazon Nova Microは最大128Kの入力トークンのコンテキスト長をサポートし、Amazon Nova LiteとProは最大300Kのトークンのコンテキスト長をサポートし、最長30分の動画を処理できます。2025年初頭までに、Amazonは200万以上の入力トークンのコンテキスト長をサポートする予定です。

高速かつコスト効率に優れています

Amazon Novaモデルは高速でコスト効率に優れ、お客様のシステムやデータとのシームレスな統合を実現するように設計されています。Amazon Nova Micro、Lite、Proは、それぞれのスマートカテゴリーで最高性能のモデルよりも少なくとも75%安価であり、それぞれのAmazon Bedrockカテゴリーで最速のモデルでもあります。

精度を向上させるための微調整をサポート

これらのモデルはカスタム微調整もサポートしており、お客様は独自のデータからラベル付けされた例に基づいて精度を向上させることができます。Amazon Nova モデルは、テキスト、画像、動画など、お客様のデータから最も重要な情報を学習し、Amazon Bedrock は独自の微調整モデルをトレーニングして、カスタマイズされた応答を提供します。

蒸留は、より小さく、より効率的なモデルをトレーニングするために使用されます。

これらのモデルは、微調整のサポートに加えて、蒸留もサポートしています。蒸留により、より大規模で強力な「教師モデル」からの特定の知識を小規模なモデルに転送できるため、精度の向上、応答時間の短縮、運用コストの削減が実現します。

データ応答に基づく検索強化生成(RAG)

Amazon Nova モデルは、Amazon Bedrock ナレッジベースと緊密に統合されており、顧客が独自のデータを活用して生成されたコンテンツの精度と関連性を高く保証できるようにする検索強化生成 (RAG) アプローチに重点を置いています。

インテリジェントエージェントアプリケーション向けに最適化

Amazon Nova モデルは、エージェント アプリケーションが複数のステップのタスクを実行するときに、複数の API を介して企業独自のシステムやデータと対話できるように最適化されています。

次のステップ: 音声対音声およびマルチモーダル対マルチモーダルモデル

Amazonは、2025年第1四半期にAmazon Nova音声合成モデルをリリースする予定です。このモデルは、ストリーミングされる自然言語の音声入力を理解し、トーンやリズムなどの言語的および非言語的信号を解釈し、人間のような流暢なインタラクションを提供して、低遅延の双方向コミュニケーションを確保することで、会話型AIアプリケーションに革命を起こすことを目指しています。

さらにAmazonは、テキスト、画像、音声、動画を入力として受け取り、あらゆるモダリティで出力を生成できる新しいモデルを開発しています。このAmazon Novaモデルは、ネイティブのマルチモーダルからマルチモーダルへ、つまり「あらゆるモダリティからあらゆるモダリティへ」という機能を備えており、2025年半ばのリリースが予定されています。このモデルによりアプリケーション開発が簡素化され、コンテンツモダリティの変換、コンテンツ編集、あらゆるモダリティを理解・生成できるAIエージェントの駆動など、複数のタスクを同じモデルで実行できるようになります。(Guo Qing)