SHOUJIKE

SORAのようなモデルは実際に物理法則を理解しているのだろうか?ByteDanceが体系的な実験を完了し、チューリング賞受賞者のヤン・リークン氏も称賛し、その成果を共有した。

SORAの爆発的な人気以来、動画生成モデルが物理法則を真に理解しているかどうかという問題は大きな話題となっていますが、業界ではまだこれを裏付ける研究は行われていません。最近、ByteDanceのDoubao Big Modelチームは、8ヶ月にわたる研究に基づいた新たな論文を発表しました。この論文は、「動画生成モデルは現実世界のモデルからどれほど離れているか」という問題について、業界で初めて体系的な実験が行われ、明確な結論を示しています。動画生成モデルは学習例を記憶することはできますが、物理法則を真に理解したり、他の状況に適用したりするには至っていません。

チューリング賞受賞者であり、Meta の主任 AI 科学者である Yang Likun 氏は、この研究を気に入ってシェアし、「結論は驚くべきものではありませんが、ついに誰かがこの試みをしてくれたことを嬉しく思います」と述べました。

OpenAIがSoraモデルをリリースして以来、多くの動画生成モデルは、生成結果が物理法則に従うことを強調してきました。Doubao Big Model Visionチームは、動画生成モデルが視覚データから物理法則を本当に「発見」し「理解」できるのかという疑問から、詳細な調査を行うことにしました。

研究チームは8ヶ月をかけて、業界初の体系的な実験研究を完了しました。特別に開発された物理エンジンを用いて、一様な直線運動、ボールの衝突、放物線運動といった典型的な物理シナリオのモーションビデオを合成し、それらを用いて、主流のDiTアーキテクチャに基づくビデオ生成モデルを学習させました。そして、生成されたビデオが運動と衝突に関して力学法則に準拠しているかどうかを検証し、モデルが物理法則を真に理解し、「世界モデル」となる可能性を秘めているかどうかを判断しました。

実験で設計されたさまざまな動作シナリオ

Doubao Big Model チームが行った実験では、モデルのパラメータとデータ量を「スケーリング法則」に従って増加させたとしても、モデルは一般的な物理法則を抽象化できず、真の「理解」を達成できないことが明らかになりました。

最も単純な等速直線運動を例に挙げると、モデルは異なる速度で等速直線運動を維持するボールのトレーニングデータを学習した後、最初の数フレームを与えられた後、トレーニングセットの速度範囲内で等速直線運動するボールの動画を生成する必要があります。モデルのパラメータとトレーニングデータの量が増えるにつれて、生成される動画は徐々に物理法則に近づいていきます。

しかし、モデルにこれまで見たことのない速度範囲(つまり、トレーニングデータの範囲外)で動画を生成するよう要求すると、モデルは突然物理法則に従わなくなり、モデルパラメータやトレーニングデータをいくら追加しても、生成された結果は大幅に改善されません。これは、動画生成モデルが物理法則を真に理解できず、これらの法則を全く新しいシナリオに一般化できないことを示しています。

研究チームはさらなる実験分析を経て、「新しい動画を生成する際、モデルは主に学習事例の記憶とマッチングに依存している。動画生成モデルは、宿題を『写す』ことしかできない生徒のようなものだ。サイズや速度の異なる物体が相互作用するなど、これまで見たことのない場面に遭遇すると、『混乱』し、生成された結果は物理的な法則に従わなくなる」と結論付けた。

しかし、この研究には良いニュースもあります。トレーニングビデオ内のすべての概念とオブジェクトがモデルにとって既に馴染みのあるものである場合、オブジェクト間の物理的な相互作用を組み合わせたり追加したりするなど、トレーニングビデオの複雑さを増やすことで、トレーニングデータの量が増え、モデルが物理法則をより適切に遵守できるようになります。この結果は、ビデオ生成モデルの性能をさらに向上させるためのヒントとなる可能性があります。

本研究の中心的な筆頭著者である二人は、どちらも非常に若く、一人は1990年代後半、もう一人は2000年代初頭生まれで、豆宝ビッグモデルチームで視覚分野の基礎研究に注力してきたことが分かっています。著者らは一貫して世界モデルに興味を抱いており、8ヶ月にわたる探求の中で、膨大な量の物理学研究文献を読み、ゲームからもインスピレーションを得ようとしました。幾多の失敗を経て、彼らは研究アプローチと実験方法を着実に確立していきました。

今年、ByteDanceは大規模モデル分野への投資を継続的に増加させ、基礎研究、基本モデル、AI応用において目覚ましい成果を上げています。また、ByteDance Doubao大規模モデルチームは、最近「Top Seed」人材育成プログラムを立ち上げ、大規模言語モデル、視覚、音声、大規模モデル基盤などの分野で世界トップクラスの研究人材を継続的に採用し、革新的な探究のための十分な空間を提供しています。

研究論文リンク: https://arxiv.org/pdf/2411.02385

研究結果ウェブサイト: https://phyworld.github.io/#combo_gen