SHOUJIKE

Alibabaの大規模動画生成モデルがオープンソース化されました!コンシューマーグレードのグラフィックカードでも動作します。

2月26日、アリババクラウドが大規模動画生成モデル「Wanxiang 2.1」のオープンソース版を2月25日遅くにリリースしたと報じられた。

このオープンソースリリースはApache 2.0ライセンスを採用しており、14Bおよび1.3Bパラメータ仕様のすべての推論コードと重みがオープンソースです。また、テキストから動画への変換タスクと画像から動画への変換タスクもサポートしています。世界中の開発者は、Github、HuggingFace、Modaコミュニティからダウンロードして体験できます。

報道によると、Wanxiangモデルの14Bバージョンは、命令追従、複雑な動作生成、物理モデリング、テキストおよび動画生成において優れた性能を発揮しています。権威ある評価ツールであるVbenchでは、Wanxiang 2.1は総合スコア86.22%を達成し、Sora、Luma、Pikaといった国内外のモデルを大きく上回り、トップの座を堅持しました。

Wanxiangモデルのバージョン1.3Bは、より大規模なオープンソースモデルを上回るだけでなく、一部のクローズドソースモデルの結果にも近づいています。コンシューマーグレードのグラフィックカードで動作し、わずか8.2GBのビデオメモリで480Pのビデオを生成できるため、二次モデル開発や学術研究に適しています。

公式筋によると、アリババクラウドは2023年から大規模モデルのオープンソース化に取り組んでいる。Qwen派生モデルの数は10万を超え、世界最大のAIモデルファミリーとなっている。

ビデオ生成の面では、Wanxiang 2.1 は自社開発の高効率 VAE および DiT アーキテクチャを通じて時空間コンテキスト モデリング機能を強化し、無限に長い 1080P ビデオの効率的なエンコードとデコードをサポートし、初めて中国語テキスト ビデオ生成を実現しました。

Wanxiangのオープンソースリリースにより、Alibaba Cloudの2つの主要な基本モデルが両方ともオープンソース化され、フルモダリティ、フルサイズの大規模モデルのオープンソース化が実現しました。

2025年1月にDeepSeekがヒットして以来、オープンソースは国内外の大規模モデルの分野で徐々に「標準」になってきました。

2月に入ると、ByteDance、Kunlun Wanwei、Baidu Wenxin、Alibaba Tongyi Qianwenなどが独自のオープンソースモデルを立ち上げ、オープンソースのトレンドに加わった。(Seventeen)