|
2月26日、アリババクラウドが大規模動画生成モデル「Wanxiang 2.1」のオープンソース版を2月25日遅くにリリースしたと報じられた。 このオープンソースリリースはApache 2.0ライセンスを採用しており、14Bおよび1.3Bパラメータ仕様のすべての推論コードと重みがオープンソースです。また、テキストから動画への変換タスクと画像から動画への変換タスクもサポートしています。世界中の開発者は、Github、HuggingFace、Modaコミュニティからダウンロードして体験できます。 報道によると、Wanxiangモデルの14Bバージョンは、命令追従、複雑な動作生成、物理モデリング、テキストおよび動画生成において優れた性能を発揮しています。権威ある評価ツールであるVbenchでは、Wanxiang 2.1は総合スコア86.22%を達成し、Sora、Luma、Pikaといった国内外のモデルを大きく上回り、トップの座を堅持しました。 Wanxiangモデルのバージョン1.3Bは、より大規模なオープンソースモデルを上回るだけでなく、一部のクローズドソースモデルの結果にも近づいています。コンシューマーグレードのグラフィックカードで動作し、わずか8.2GBのビデオメモリで480Pのビデオを生成できるため、二次モデル開発や学術研究に適しています。 公式筋によると、アリババクラウドは2023年から大規模モデルのオープンソース化に取り組んでいる。Qwen派生モデルの数は10万を超え、世界最大のAIモデルファミリーとなっている。 ビデオ生成の面では、Wanxiang 2.1 は自社開発の高効率 VAE および DiT アーキテクチャを通じて時空間コンテキスト モデリング機能を強化し、無限に長い 1080P ビデオの効率的なエンコードとデコードをサポートし、初めて中国語テキスト ビデオ生成を実現しました。 Wanxiangのオープンソースリリースにより、Alibaba Cloudの2つの主要な基本モデルが両方ともオープンソース化され、フルモダリティ、フルサイズの大規模モデルのオープンソース化が実現しました。 2025年1月にDeepSeekがヒットして以来、オープンソースは国内外の大規模モデルの分野で徐々に「標準」になってきました。 2月に入ると、ByteDance、Kunlun Wanwei、Baidu Wenxin、Alibaba Tongyi Qianwenなどが独自のオープンソースモデルを立ち上げ、オープンソースのトレンドに加わった。(Seventeen) |
Alibabaの大規模動画生成モデルがオープンソース化されました!コンシューマーグレードのグラフィックカードでも動作します。
関連するおすすめ記事
-
Trip.comグループは、親が子供に付き添うための休暇を3日間追加し、「不妊治療に配慮した」ポリシーをさらに強化しました。
-
ミンチー・クオ氏は、iPhone SE 4 が今年 2,000 万台近く出荷されると予測しています。
-
アップルのCEOティム・クック氏はトランプ大統領の就任式に100万ドルを寄付した。
-
マイクロソフト Xbox 責任者スペンサー: プレイヤー獲得の競争はやめてください。クロスプラットフォームの互換性こそが進むべき道です。
-
中国の新エネルギー車の販売台数は2025年までにガソリン車の2倍となる1565万台を超えると予想されている。
-
Musk x AIがGrok 3モデルをリリース: AI巨人にとっての新たなマイルストーンか、それとも単なる誇大宣伝か?