SHOUJIKE

Doubaoの視覚理解モデルが正式にリリースされ、その価格は業界平均より85%安くなっています。

12月18日、大規模言語モデルの価格がセント単位になったのに続き、視覚理解モデルも「セント時代」に入ったことが発表されました。

Volcano Engine Forceカンファレンスにおいて、ByteDanceはDoubao視覚理解モデルを正式にリリースし、企業にコスト効率の高いマルチモーダル大規模モデル機能を提供しました。

報道によると、Doubao視覚理解モデルの入力コストは1000トークンあたりわずか0.3セントで、わずか1元で284枚の720P画像を処理でき、これは業界平均よりも85%安価です。

Volcano Engineの社長であるTan Dai氏は、Doubaoの視覚理解モデルは視覚コンテンツを正確に識別するだけでなく、優れた理解力と推論能力を備えていると述べています。画像情報に基づいて複雑な論理計算を実行し、グラフの分析、コード処理、学術的な質問への回答などのタスクを完了できます。さらに、このモデルは洗練された視覚的描写と創造力を発揮します。

Doubaoの視覚理解モデルは、DoubaoアプリとPC製品に統合されていました。Doubaoの戦略研究責任者である周浩氏は、「Doubaoはユーザー入力の高速化と利便性向上に尽力してきました」と述べています。この目標達成のため、Doubao製品は音声や視覚機能を含むマルチモーダル入力と改良に重点を置いています。これらのモデルは、Volcano Engineを通じてエンタープライズクライアントに提供されています。

カンファレンスでは、豆宝3D生成モデルも初公開されました。このモデルは、Volcano EngineのデジタルツインプラットフォームveOmniverseと連携することで、インテリジェントトレーニング、データ合成、デジタルアセット作成を効率的に完了し、AIGC作成をサポートする物理世界シミュレーションシミュレーターとなります。

さらに、Doubao Big Modelのいくつかの製品も重要なアップデートを受けました。Doubao General Model ProはGPT-4oと完全に連携し、価格は後者の1/8になりました。音楽モデルは、単純な60秒の構造を生成することから、完全な3分間の作品を生成できるようにアップグレードされました。Wenshengtuモデルバージョン2.1は、業界初の製品化された漢字の正確な生成と一文の画像編集機能を実現し、このモデルはJimeng AIとDoubao Appに統合されました。

Volcano Engineは、2025年春にDoubao動画生成モデルのバージョン1.5をリリースし、より長時間の動画生成を可能にすると発表した。Doubaoエンドツーエンドのリアルタイム音声モデルもまもなくリリースされ、マルチロールパフォーマンスや方言変換などの新機能が利用可能になる。Tan Dai氏は、Doubao大規模モデルのリリースは比較的遅かったものの、急速に反復・進化を遂げており、現在では中国で最も包括的で技術的に先進的な大規模モデルの一つとなっていると述べた。(周小白)