SHOUJIKE

Alibaba Cloud の大規模ビデオ生成モデル「Wanxiang 2.1」がオープンソース化されました!Sora よりも優れた結果を実現し、コンシューマーグレードのグラフィックカードでも実行できます。

2月27日のニュース:大規模モデルのオープンソース化の流れは、動画生成の大規模モデルにも及んでいます。Alibaba Cloudは先日、Wanxiangがオープンソース化されることを発表しました。

Alibaba CloudのWanxiang 2.1動画生成モデルが正式にオープンソース化されました。このオープンソースリリースはApache 2.0ライセンスを採用し、14Bと13Bのパラメータ仕様における推論コードと重みはすべてオープンソースです。また、テキストベースと画像ベースの動画タスクもサポートしています。世界中の開発者がGithub、HuggingFace、Moda Communityからダウンロードして体験できます。

アリババクラウドは2023年以来、大規模モデルのオープンソース化に注力しており、Qwen派生モデルの数は10万を超えています。万向のオープンソース化により、アリババクラウドはあらゆるモダリティと規模のオープンソース化を実現しました。

4つのオープンソースモデル

このオープンソースリリースには、テキストベースモデル2つと画像ベースモデル2つの計4つのモデルが含まれており、それぞれ2つのパラメータバージョンが用意されています。テキストベースのビデオモデル2つは1.3Bと14Bの仕様で提供され、画像ベースのビデオモデル2つはどちらも14Bで、解像度は480Pと720Pです。

Wanxiangモデルの14Bバージョンは、命令追従、複雑な動作生成、物理モデリング、テキストおよび動画生成において優れた性能を発揮します。権威あるベンチマークテストであるVbenchでは、Wanxiang 2.1は総合スコア86.22%を達成し、Sora、Luma、Pikaといった国内外のモデルを大きく上回り、トップの座を堅持しました。

Wanxiangモデルのバージョン1.3B:大規模なオープンソースモデルを上回るだけでなく、一部のクローズドソースモデルの結果にも近づいています。同時に、コンシューマーグレードのグラフィックカードで動作し、480Pビデオを生成するのに必要なビデオメモリはわずか8.2GBです。二次モデル開発や学術研究に適しています。

一部のユーザーからは、1.3B モデルでは RTX 4090 で 5 秒間の 480P ビデオを約 4 分で実行できるという報告もあります。

Alibaba Cloud は、Wanxiang 2.1 (Wan) が中国語のテキスト生成をサポートするだけでなく、中国語と英語のテキスト効果の生成もサポートする初のビデオ生成モデルであると特に強調しました。

実験結果によると、Wanxiangは、モーション品質、ビジュアル品質、スタイル、多目的テストを含む14の主要次元と26のサブ次元において非常に優れたパフォーマンスを示し、5つのカテゴリーで1位を獲得しました。特に、複雑な動作と物理法則の遵守において大幅な改善が見られ、キャラクターの回転やジャンプといった高難易度の動作を安定してレンダリングし、オブジェクトの衝突、跳ね返り、カットといっ​​た物理効果をリアルにシミュレートしました。

この驚異的なパフォーマンスの背後には、Wanxiang Large Modelによる一連の技術革新があります。これらの技術革新は、主流のDiTと線形ノイズ軌跡フローマッチングパラダイムに基づいており、モデルの生成能力を大幅に向上させました。これらの革新には、自社開発の高効率な因果的3D VAE、スケーラブルな事前学習戦略、大規模データリンク構築、そして自動化された評価指標が含まれます。これらの革新が相まって、モデルの最終的なパフォーマンスを向上させています。

Alibaba は生成された大規模モデルの多数のビデオを公開しました。その結果をご覧ください。

オープンソースアドレス:

Github: https://github.com/Wan-Video

ハギングフェイス: https://huggingface.co/Wan-AI

ModelScope コミュニティ: https://modelscope.cn/organization/Wan-AI