SHOUJIKE

テンセントのHunyuanプラットフォームは、画像生成ビデオモデルをリリースしてオープンソース化し、リップシンクやモーション駆動型ゲームプレイなどの機能を実現しました。

3月7日、テンセント・フンユアンの公式WeChatアカウントによると、テンセント・フンユアンは生の動画モデルを公開し、オープンソース化した。同時に、リップシンクやモーションドリブンゲームプレイなどの機能を導入し、背景効果音や2K高画質動画の生成もサポートした。

公式紹介によると、画像から動画を作成する機能により、ユーザーは画像をアップロードし、画像をどのように動かしたいか、カメラをどのように配置したいかを簡単に説明するだけで、Hunyuan が必要に応じて画像を動かし、5 秒間の短い動画に変換し、背景のサウンド効果を自動的に追加することもできるという。

さらに、人物の写真をアップロードし、「リップシンク」したいテキストや音声を入力すると、写真の人物が「話したり」「歌ったり」することができます。また、「モーションドリブン」機能を使用すると、ワンクリックで同様のダンスビデオを生成することもできます。

現在、ユーザーは公式サイトを通じてHunyuan AI Videoを体験することができ、企業や開発者はTencent Cloudを通じてAPIインターフェースの使用を申請することができる。

このオープンソースの画像ベース動画モデルは、Hunyuan画像ベース動画モデルのオープンソース化の継続です。モデルのパラメータ総数は130億のままです。このモデルは、リアルな動画制作、アニメキャラクター、さらにはCGIキャラクターの生成など、様々な種類のキャラクターやシーンに適用できます。

オープンソースコンテンツには、重み、推論コード、LoRAトレーニングコードが含まれており、開発者が混合ソースモデルに基づいて独自のLoRAモデルやその他の派生モデルをトレーニングするのに役立ちます。現在、GitHubやHuggingFaceなどの主要な開発者コミュニティでダウンロードとテストが可能です。(周小白)