Learning Interactive Real-World Simulators
M Yang, Y Du, K Ghasemipour, J Tompson, D Schuurmans, P Abbeel
[UC Berkeley & MIT & Google DeepMind]
交互式真实世界模拟器学习
-
通过结合不同的数据集和生成模型,探索建立一个交互式的真实世界通用模拟器(UniSim)。
-
数据集覆盖不同轴心如对象、场景、动作、运动、语言,将观察和动作提取到一个共同格式中。
-
在这个多模态数据上训练视频扩散模型,以模拟给定前一观察和动作下的下一观察。
-
UniSim的推理类似POMDP的推出,支持长时间模拟进行决策。
-
UniSim可以模拟真实的经验来训练具身AI模型,如视觉语言规划器和控制策略。
-
这些纯粹在UniSim中训练的模型可以零样本泛化到真实世界,展示了模拟器的有用性。
-
UniSim还可以模拟罕见事件如汽车撞车,以改进视频理解模型。
-
总体来说,编排多模态数据学习像UniSim这样的条件生成模型,是建立强大模拟器的一个有希望的方向。
动机:
构建一个真实世界的交互式模拟器,通过生成建模来模拟人类、机器人和其他交互式智能体的行为,以实现可控的内容创作和培训。
方法:
通过精心协调丰富的数据集,每个数据集提供整体体验的不同方面,通过生成建模学习到真实世界交互的通用模拟器(UniSim)。
优势:
UniSim可以模拟高级指令和低级控制的视觉结果,使高级视觉语言规划器和低级强化学习策略能在学习纯粹的模拟器后进行领样本的真实世界迁移。
通过精心协调丰富的数据集,构建一个通用模拟器(UniSim),能模拟真实世界的交互体验,实现高级视觉语言规划和强化学习策略的领样本真实世界迁移。
https://arxiv.org/abs/2310.06114