SHOUJIKE

元ファーウェイの天才が創設したスタートアッププロジェクト「Zhiyuan Robotics」が、初の大型汎用具現化ベースモデルをリリースした。

3月10日、志会君氏のスタートアッププロジェクトであるGenie Roboticsは、初の汎用具現化ベースモデルであるGenie Operator-1をリリースした。

この大規模モデルは、VLM(マルチモーダル大規模モデル)とMoE(ハイブリッドエキスパート)を組み合わせた、Vision-Language-Latent-Action(ViLLA)アーキテクチャを革新的に提案しています。人間の動画からの学習を可能にし、少ないサンプル数で迅速な汎化を実現し、身体知能の閾値を下げ、Zhiyuanの複数のロボットボディへの搭載に成功しています。

ViLLAアーキテクチャを用いて、AI搭載ロボットはGO-1を5つの難易度の異なるタスクでテストしました。既存の最良モデルと比較して、GO-1は平均成功率が32%(46%→78%)向上し、大幅に優れたパフォーマンスを示しました。

「水を注ぐ」、「テーブルを片付ける」、「飲み物を補充する」というタスクのパフォーマンスが特に良好でした。

また、ViLLAアーキテクチャにおけるLatent Plannerの役割についても別途検証されており、Latent Plannerを追加することで成功率が12%(66%→78%)向上することがわかります。

報道によると、GO-1大型モデルは、人間とさまざまなロボットのデータの助けを借りて、ロボットに革命的な学習能力を与え、さまざまな環境や物体に一般化でき、新しいタスクに素早く適応し、新しいスキルを習得できるようになったという。

同時に、さまざまなロボット本体への展開をサポートし、着陸を効率的に完了し、実際の使用において継続的かつ急速に進化しています。

このシリーズの特徴は、次の 4 つの点にまとめられます。

人間のビデオ学習: GO-1 大規模モデルは、インターネット ビデオと実際の人間のデモンストレーションを組み合わせて学習できるため、モデルの人間行動の理解が強化され、人類への貢献が向上します。

少ないサンプル数で迅速な一般化: GO-1 大規模モデルは強力な一般化能力を備えており、非常に少ないデータ、あるいはサンプルがゼロであっても新しいシナリオや新しいタスクに一般化できるため、具体化されたモデルを使用する閾値が下がり、トレーニング後のコストが非常に低くなります。

1 つの脳、複数のフォーム: GO-1 モデルは、さまざまなロボット フォーム間を移行し、さまざまなエンティティに迅速に適応し、グループのインテリジェンスを強化できる汎用ロボット戦略モデルです。

継続的な進化: GO-1 大型モデルは、Zhiyuan の完全なデータ フィードバック システムと組み合わせることで、実際の実行中に遭遇した問題データから継続的に進化して学習し、使用すればするほど賢くなります。

2020年、彭志輝(ジーフイ・ジュン)氏はファーウェイの「天才青年育成プログラム」で最高年俸201万元で入社し、Ascend AIチップやAIアルゴリズムの研究に従事したと報じられている。2022年末にファーウェイを退社し、2023年2月に知源ロボティクス(Zhiyuan Robotics)を共同設立した。(Shiqi)