人形机器人要走向真实生活,世界模型如何更好地训练它们面对各种突发、发布意外、机器长尾场景?人迎
眼下,大家真不用在真实场景的世界模型数据里穷尽各种可能了。
9月17日,发布挪威机器人公司1X发布一款针对机器人的机器“世界模型”,结合了Sora视频生成和端到端自动驾驶(E2EAD)世界模型(world models for autonomous vehicles)技术,人迎可生成高保真的世界模型视频,使得机器人能够模拟多种场景下的发布动作和交互,从而在模拟空间中进行规划、机器操作、人迎训练和评估,世界模型提高其在现实世界中执行任务的发布效率和准确性。
1X公司成立于2014年,机器主要研发双足机器人和商用轮式人形机器人,于2023年获得Open AI的投资,并与之共享数据和技术。
如何训练及评估机器人与真实世界的泛化交互能力,是机器人行业亟待解决的关键问题。
由于真实世界的环境存在不稳定性,通常很难重现。为控制环境因素的变量,传统的训练方法往往采用基于物理的模拟仿真器(如Bullet、Mujoco、Isaac Sim、Drake),使得实验和训练可重置及重现,从而能够比较评估不同的控制算法。
然而,这些模拟器大多是为刚体动力学而设计,所模拟的环境通常在视觉和实际用例多样性方面较为有限,导致难以将小规模评估结果直接推广至现实世界。
而在1X之前,产业界也有不少拓展机器人训练场景和任务多样性的尝试。
2024年7月15日,上海AI实验室推出首个专为各种机器人设计的模拟交互3D社会GRUtopia(桃源),包含了覆盖10万个精细注释的交互式场景数据集GRScenes、由大型语言模型驱动的NPC(非玩家角色)系统GRResidents,以及评估机器人能力的基准测试GRBench。
GRUtopia采用从仿真到真实(Sim2Real)的范式,旨在降低现实世界数据收集的难度和成本,解决具身智能领域的数据稀缺问题。该项目已全部开源。(开源地址:https://github.com/OpenRobotLab/GRUtopia)
此次1X公司发布的“世界模型”,在构建和评估机器人能力时,采用了一种全新的方法——直接从机器人原始传感器数据中学习。
1X公司收集了数千小时机器人在家庭和办公环境中交互的真实数据,训练该模型学会了模拟现实环境,并根据不同动作指令模拟产生不同结果,预测机器人与环境的交互,如规划路径、抓取物体、折叠衣物,甚至自动避免与人碰撞,能够在数百万个场景中评估机器人策略的表现。
尽管在物体一致性、物理规律和自我认知方面仍存在一些挑战,1X此次发布的“世界模型”为机器人学习和认知研究提供了全新的视角。其创始人兼CEO Bernt Bornich认为,