このほど、北京人型ロボットイノベーションセンターが開発したエンボディド・世界モデル「WoW」が、WorldArena Challenge Track 2(Data Engine)の評価ランキングで首位を獲得した。国内外のトップクラスの高等教育機関が評価に参加したグローバルなAI実戦型ベンチマークテストにおいて、北京亦庄発のこの「ロボットの頭脳」は、「現実の物理世界を理解しデータを生成する」という中核的な能力において、業界のトップレベルに達した。

画像提供:VCG
WorldArenaは、清華大学、北京大学、上海交通大学、プリンストン大学などが共同で立ち上げた、エンボディド・世界モデルによる知覚と機能実用性を統一的かつ包括的に評価する初のベンチマークプラットフォームである。WorldArenaチャレンジにおけるTrack 2(Data Engine)の実戦型性能評価では、主にモデルが生成した合成データが下流のロボットポリシーの訓練効果を実際に向上させられるかどうかを見ている。
WoWは、ロボットに物理法則を理解・予測する「頭脳」を提供、現実の物理世界の法則をシミュレーションし、さらに物理的論理に則った高品質なインタラクションデータを自律的に生成することで、エンボディドAI業界のデータ不足問題を解決できるようになった。今回首位を獲得したのは、WoWシリーズの中で最も小型の1.3Bモデルである。「軽量モデル」として、WoW1.3Bは他の多くのより大規模な汎用動画モデルや専用モデルを凌ぐ性能を発揮した。
技術面においても、WoWモデルは3つの大きなブレークスルーを果たした。物理エンジンレベルの生成能力を備え、ロボットのインタラクション軌跡を学習、未来のシーンを正確にシミュレートすることができるようになった。また、独自開発のSOPHIA自己参照パラダイムを通じて「自己進化」するデータループを形成し、「画像から動作へ」というクローズドループ推論を実現。アルゴリズムに現実世界を「触れる」両手を与えるかのように、少量の実際の軌跡から数百万もの高品質なインタラクションデータを派生できるようにしている。WoWが生成したデータは、ロボットに把持・配置・長期タスクなどを実行させる実験において、国内外のトップクラスのベースラインモデルを大幅に上回る性能を示したのである。
情報提供:亦城時報