SHOUJIKE

RTE2024: 次世代AI時代のRTEに焦点を当て、AgoraがRTE+AI機能の全体像を公開

10月26日、AgoraとRTE開発者コミュニティが共催する第10回リアルタイムインターネットカンファレンス(RTE2024)が正式に開幕しました。今年はAgora創立10周年、そしてRTEカンファレンス10周年の節目の年です。過去10年間、リアルタイムインタラクションは「概念」から「産業」へと進化しました。リアルタイムインタラクティブ技術は、ソーシャルエンターテイメント、オンライン教育、IoT、エンタープライズサービスなど、数十の業界と数百のシナリオの飛躍的な成長を支援しただけでなく、多くのインターネットトレンドの進化を支えてきました。過去のeコマースライブストリーミング、インターネットヘルスケア、エンターテインメントライブストリーミングから今日の大規模モデルに至るまで、すべてがRTE機能の参加とエンパワーメントに依存しています。

生成型AIの新時代において、RTEとAIは新たな可能性を切り開くでしょう。RTE2024メインフォーラムでは、Agoraの創業者兼CEOである趙斌氏、Lepton AIの創業者兼CEOである賈陽青氏、そしてAgoraのチーフサイエンティスト兼CTOである鍾盛氏が基調講演を行い、リアルタイムインタラクティブ業界に関する深い洞察を共有しました。

Zhao Bin: 生成 AI は IT 業界に 4 つの大きな変化をもたらします。

生成AIはIT業界に大きな変革をもたらしています。趙斌氏は、このトレンドは主に端末、ソフトウェア、クラウド、そしてヒューマン・コンピュータ・インターフェースの4つの領域に反映されると考えています。端末レベルでは、大規模モデル機能により、PCやスマートフォンはAI搭載PCやAI搭載スマートフォンへと進化します。ソフトウェアレベルでは、あらゆるソフトウェアが大規模モデルを用いて再実装可能となり、「AI搭載ソフトウェア」から「AIネイティブソフトウェア」へと進化します。クラウドレベルでは、あらゆるクラウドが大規模モデルの学習と推論を行う能力を必要とし、AIネイティブクラウドが主流となるでしょう。さらに、ヒューマン・コンピュータ・インターフェースの主流は、キーボード、マウス、タッチスクリーンから自然言語インターフェース(LUI)へと移行するでしょう。

生成AIがIT業界の進化における次世代のテーマとなるにつれ、リアルタイムエミッション(RTE)もマルチモーダルアプリケーションとインフラの重要な構成要素となっています。10月初旬、Agoraの姉妹会社であるAgoraが、OpenAIのリアル​​タイムAPIのパブリックベータ版に音声APIパートナーとして登場しました。

カンファレンスで趙斌氏は、AgoraとMiniMaxが中国初のリアルタイムAPIを改良中であると述べました。また、趙氏はAgoraがMiniMaxリアルタイムAPIをベースに構築したAIエージェントも披露しました。デモ動画では、人間とAIエージェントが滑らかで自然なリアルタイム音声会話を交わしました。人間がAIエージェントに割り込んで新たな質問をすると、AIエージェントは非常に迅速かつ敏感に反応し、人間との自然で流暢な対話を実現しました。

生成AIの波の中で、リアルタイムエミッション(RTE)はさらに幅広い可能性を提供します。趙斌氏はプレゼンテーションの中で、AgoraがRTE+AI機能の全体像を正式に発表したことも発表しました。この全体像において、Agoraは、リアルタイムAIインフラストラクチャ、RTE+AIエコシステム機能、Agora AIエージェント、リアルタイムマルチモーダル対話型AIソリューション、そしてRTE+AIアプリケーションシナリオという5つの側面から、RTEとAIを組み合わせた現在の技術力とアプリケーションソリューションを明確に示しています。生成AIとRTEの組み合わせによってもたらされるシナリオイノベーションは、今後10年間の大きなテーマとなるでしょう。

過去10年間、Agoraはリアルタイムインタラクション(RTE)が概念から産業へと発展する過程を目の当たりにし、推進してきただけでなく、国内のリアルタイムオーディオ・ビデオ分野における3つの欠落という問題を積極的に打破してきました。趙斌氏は、10年前、業界には業界カンファレンス、専門書籍、専門メディア、そしてコミュニティが不足していたと述べています。RTEカンファレンスが10周年を迎える今、Agoraは業界初となるリアルタイムインタラクションに関する体系的な技術普及書『Understanding Real-Time Interaction(リアルタイムインタラクションの理解)』を今年8月に正式に出版しました。同時に、RTE開発者コミュニティも活発に活動を続け、その発展を加速させています。

賈陽青氏:AIはクラウドコンピューティングの第3の波です。

AI技術の発展に伴い、大規模AIアプリケーションの開発、AIクラウド、GPUなどのインフラ構築が徐々にホットトピックとなり、業界全体の発展を支える基礎基盤となり、新たなアプリケーションの誕生を促し、新たなビジネス価値の実現につながっています。RTE2024メインフォーラムでは、Lepton AIの創業者兼CEOであるJia Yangqing氏が、AIアプリケーション、クラウド、GPUコンピューティングパワークラウドテクノロジー、エンタープライズ大規模モデルの自律性といった観点​​から、AIインフラの進化に関する解釈を共有しました。

AIアプリケーションに関して、賈陽青氏は、現在がAIアプリケーション構築が最も容易な時代であり、AIモデルの概念がシンプルであればあるほど、優れた成果を生み出す可能性が高くなると指摘しました。AI機能のサポートにより、アプリケーション自体の開発パラダイムも、データ、モデル、アプリケーション構築という3つの次元から変化しつつあります。今後のアプリケーション開発は、「プロセス中心」から「モデル中心」へと移行していくでしょう。

AIアプリケーション以外にも、大規模モデルやGPU最適化への需要によって、従来のクラウドアーキテクチャも革命的な変化を遂げてきました。賈陽青氏は、AIはWebクラウドとデータクラウドに続くクラウドコンピューティングの第三の波だと考えています。AIクラウドには3つの特徴があります。コンピューティングパワーがインテリジェンスの基盤となること、AIクラウドには膨大なコンピューティングパワーと大規模な異種クラスターが必要であること、そして限定的ながらも高品質な通信が可能であることです。クラウド製品の本質は、コンピューティングと伝送のバランスです。賈陽青氏は、AIクラウドモデルにおいて、リアルタイム通信とインテリジェンスの組み合わせがユーザーエクスペリエンスにとって極めて重要であると指摘しています。リアルタイム性は生産性に直結すると言っても過言ではありません。

企業は、大規模モデルを自社で構築する自主性をどのように判断すべきでしょうか?賈陽青氏は、企業はオープンソースとクローズドソースの両方の大規模モデルを検討すべきだと強調しました。オープンソースモデルをカスタマイズして活用するメリットは、カスタマイズ性の向上だけでなく、コスト削減とスピードアップにもつながります。オープンソース+カスタマイズは、クローズドソースモデルよりも優れた成果を達成できる可能性があります。

鍾盛:分散型エッジクラウド統合 AI システムは、現代のインフラストラクチャの基本的な形態になります。

すでに到来したAI時代において、現代のインフラはどうあるべきでしょうか?Agoraのチーフサイエンティスト兼CTOであるZhong Sheng氏は、多数のユーザーデバイスがまずエッジノードに接続し、必要に応じてクラウドに接続し、データがエッジデバイス、エッジノード、クラウドの間を行き来すると述べています。AI時代のデータセンターには、大規模な異機種コンピューティングパワーで構成されたスーパーコンピューティングクラスター(SuperScaler)が含まれます。しかし、スーパーコンピューティングクラスターのみに依存するシステムでは決して十分ではありません。数兆個のパラメータとマルチモーダルコンピューティングの導入によって生じる法外なコンピューティングコスト、データプライバシー保護を制限するメカニズムの欠如、そして数秒のレイテンシは、大規模モデルの広範な採用を妨げ、多くのシナリオでの適用を著しく制限します。

中盛は、エッジ、クラウド、エンドポイントを統合した分散型AIシステムがこれらの課題を効果的に解決できると考えています。このシステムは、各ノード間のコンピューティングと伝送を合理的に構成し、エンドポイントとエッジで実行されるタスクをインテリジェントかつ適応的にオーケストレーションすることで、コストを大幅に削減すると同時に、低レイテンシ(応答速度1秒未満)、高いネットワークジッター耐性、優れたノイズ耐性を実現し、ユーザーデータはエンドポイントのみに保持されます。

プレゼンテーション中、中盛はエッジとデバイスを組み合わせた、STT、LLM、TTS、RTCの4つのモジュールで構成されるリアルタイム対話AIエージェントのデモも行いました。これは、ベンダーが日常のシナリオよりも厳しい環境でリアルタイムAI対話機能を披露した世界初の事例となります。1000人を超える聴衆の前で、エージェントはノイズ、エコー、マイクの遅延など、数多くの課題に直面しました。これらの困難にもかかわらず、エージェントと中盛とのインタラクションは優れた対話機能を実証し、標準的な5Gネットワ​​ーク環境内でスムーズで自然、かつ魅力的な双方向のリアルタイム対話を実現しました。対話モデルの極めて高速な応答速度、中断の自然さ、ノイズへの耐性、音声コマンドに従って待機する能力は、いずれも傑出していました。

最後に鍾盛氏が述べたように、端末デバイスの多様化と機能向上に伴い、AIインフラはより最適化され、より合理的になり、AIはあらゆる場所に普及するでしょう。AIアシスタントやAIクローンは、時間不足を効果的に軽減し、仕事の効率と生活体験を向上させるでしょう。

円卓会議:インフラ整備から商業化まで、AIの6,000億ドル規模の課題

6,000億ドル規模のAI課題は、業界全体にとって常に大きな懸念事項となっています。円卓会議では、Lepton AIの創業者兼CEOであるJia Yangqing氏、MiniMaxのパートナーであるWei Wei氏、Mianbi Intelligenceの共同創業者兼CTOであるZeng Guoyang氏、Hugging FaceのエンジニアであるWang Tiezhen氏、そしてAgoraの共同創業者であるTony Wang氏の5名のゲストが、AIインフラからAIの商業化に至るまでの機会と課題について議論しました。

大規模な商用モデルとオープンソースモデルの今後の発展動向について、賈陽青氏は2つの主要な視点を挙げました。第一に、同等の品質のモデルは、サイズが縮小され、計算効率が向上し、アーキテクチャがよりオープンかつ標準化されるようになるということです。第二に、ごく少数の大手企業を除き、ますます多くの企業が次世代モデルの構築にオープンソースアーキテクチャを採用するようになるでしょう。そのため、オープンソースアーキテクチャの応用はますます広がり、オープンソースアーキテクチャを用いて学習されたモデルはそれぞれ独自のスタイルを持つようになるでしょう。

王鉄振氏は、今後、インフラとリアルタイム性に関する取り組みがますます増えていくだろうと述べました。オープンソースモデル自体だけでなく、そのインフラとデータループにも焦点を当て、より良く、より高速に動作させる必要があります。リアルタイムには、TTS(テキスト読み上げ)と大規模モデルの両方が必要です。これらを何らかの方法で組み合わせ、エッジでユーザーに近い場所に配置できれば、優れた成果を上げることができます。

オーディオ・ビデオ・マルチモーダルモデルの実用化の可能性について、魏魏氏は、マルチモーダル性の出現により、生成型人工知能の境界は間違いなく拡大し続け、この業界の変革を加速させると述べました。製品開発とユーザーサービスを通じて、魏魏氏は、テキスト、音声、音楽、ビデオのモデルが、芸術、映画、音楽などの分野のクリエイターの効率を大幅に向上させ、新たなアイデアや手法を提供できることを発見しました。

大規模モデル技術のコストの高さについて、曾国陽氏は、技術の進歩に伴い、コンピューティングパワーは必然的に安価になり、同じ機能を持つモデルのサイズは小さくなると述べました。しかし、コンピューティングパワーのコストを最適化することは、最終的にはより強力なモデルのトレーニングにつながります。真のAGIレベルに到達するまでは、モデルのパワーが高まっていることは実感できますが、コストの変化を実感することは難しいのです。また、Wallfacerはエッジモデルに重点を置いているため、デバイス上でモデルを高速化することに細心の注意を払っていると述べました。実際の展開では、量子化圧縮やスパース化といった様々な手法を用いて、実際の展開オーバーヘッドを最適化しています。

要約すると、トニー・ワン氏は、AIインフラの構想から商業化に至るまでの推進において最も重要な2つの要素は、技術の進歩とコストであると考えています。さらに、トラフィックと好意的な口コミも、製品を市場に投入する上で重要な要素です。