|
2月26日、アリババクラウドが大規模動画生成モデル「Wanxiang 2.1」のオープンソース版を2月25日遅くにリリースしたと報じられた。 このオープンソースリリースはApache 2.0ライセンスを採用しており、14Bおよび1.3Bパラメータ仕様のすべての推論コードと重みがオープンソースです。また、テキストから動画への変換タスクと画像から動画への変換タスクもサポートしています。世界中の開発者は、Github、HuggingFace、Modaコミュニティからダウンロードして体験できます。 報道によると、Wanxiangモデルの14Bバージョンは、命令追従、複雑な動作生成、物理モデリング、テキストおよび動画生成において優れた性能を発揮しています。権威ある評価ツールであるVbenchでは、Wanxiang 2.1は総合スコア86.22%を達成し、Sora、Luma、Pikaといった国内外のモデルを大きく上回り、トップの座を堅持しました。 Wanxiangモデルのバージョン1.3Bは、より大規模なオープンソースモデルを上回るだけでなく、一部のクローズドソースモデルの結果にも近づいています。コンシューマーグレードのグラフィックカードで動作し、わずか8.2GBのビデオメモリで480Pのビデオを生成できるため、二次モデル開発や学術研究に適しています。 公式筋によると、アリババクラウドは2023年から大規模モデルのオープンソース化に取り組んでいる。Qwen派生モデルの数は10万を超え、世界最大のAIモデルファミリーとなっている。 ビデオ生成の面では、Wanxiang 2.1 は自社開発の高効率 VAE および DiT アーキテクチャを通じて時空間コンテキスト モデリング機能を強化し、無限に長い 1080P ビデオの効率的なエンコードとデコードをサポートし、初めて中国語テキスト ビデオ生成を実現しました。 Wanxiangのオープンソースリリースにより、Alibaba Cloudの2つの主要な基本モデルが両方ともオープンソース化され、フルモダリティ、フルサイズの大規模モデルのオープンソース化が実現しました。 2025年1月にDeepSeekがヒットして以来、オープンソースは国内外の大規模モデルの分野で徐々に「標準」になってきました。 2月に入ると、ByteDance、Kunlun Wanwei、Baidu Wenxin、Alibaba Tongyi Qianwenなどが独自のオープンソースモデルを立ち上げ、オープンソースのトレンドに加わった。(Seventeen) |
Alibabaの大規模動画生成モデルがオープンソース化されました!コンシューマーグレードのグラフィックカードでも動作します。
関連するおすすめ記事
-
報道によると、Apple が独自開発した 5G ベースバンドは Qualcomm のものより弱く、iPhone の信号問題は未解決のままである。
-
マスク氏:Grok 3 モデルは 1 ~ 2 週間以内にリリースされる予定で、現在は最終準備段階にあります。
-
半導体メーカー上位10社の第3四半期の純利益は38%増加しました。この増加のうち63%はNVIDIAによるものです。
-
バイトダンスゲームズの新責任者、張雲帆氏:「ゲーム事業は短期的には完全な失敗も成功もないだろう。外の世界に自分たちの実力を証明するために急ぐ必要はない。」
-
何小鵬:小鵬汽車はすでに好循環期に入っており、今後3年間で新エネルギー車の普及率は85%を超えるだろう。
-
DeepSeekオープンソース第4リリース:3つの並列最適化戦略を公開