体验完整Gemini

Google官网体验Gemini

什么是世界模型？为什么Sora不是 world simulator？

1,572次阅读

什么是世界模型？为什么Sora不是 world simulator？

导语

新年伊始，OpenAI Sora 横空出世，声称是“作为世界模拟的视频生成模型”（Video generation models as world simulators），让“世界模型”这一概念再次进入人们的视野。那么什么是世界模型？Sora 到底是不是 world simulator 呢？南京大学人工智能学院教授俞扬近日撰文溯源了世界模型（world model）的概念，认为世界模型的核心作用是反事实推理，而 Sora 更多是视频工具，难以作为反事实推理的工具准确回答 what if 问题。Sora没有准确学到物理规律这一现象或许表明，简单的堆砌数据并不是通向更高级智能技术的道路。
俞扬老师此前在集智凯风研读营做了主题为“因果强化学习探索”的分享，深入讲解了强化学习中的世界模型，回放视频现已免费上线。扫描下方二维码可观看视频，欢迎感兴趣的朋友关注！

什么是世界模型？为什么Sora不是 world simulator？

研究领域：世界模型，因果强化学习，因果阶梯，反事实推理俞扬 | 作者

随着媒体狂炒 Sora，OpenAI的介绍材料中称Sora是 “world simulator”，世界模型这个词又进入视野，但很少有文章来介绍世界模型。这里回顾一下什么是世界模型，以及讨论 Sora 是不是 world simulator。

什么是世界模型

当AI领域中讲到世界/world、环境/environment 这个词的时候，通常是为了与智能体/agent 加以区分。研究智能体最多的领域，一个是强化学习，一个是机器人领域。因此可以看到，world models、world modeling 最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的，可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章，该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。

论文题目：Recurrent World Models Facilitate Policy Evolution

论文地址：

https://worldmodels.github.io/

该论文中并没有定义什么是World models，而是类比了认知科学中人脑的mental model，引用了1971年的文献。

mental model是人脑对周边世界的镜像

Wikipedia 中介绍的 mental model，很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含 mental representations 和 mental simulation 两部分。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs “small-scale models” of reality that it uses to anticipate events.

到这里还是说得云雾缭绕，那么论文中的结构图一目了然的说明了什么是一个world model：

图中纵向V->z是观测的低维表征，用VAE实现，水平的M->h->M->h是序列的预测下一个时刻的表征，用RNN实现，这两部分加起来就是World Model。

也就是说，World model 主要包含状态表征和转移模型，这也正好对应mental representations 和 mental simulation。

看到上面这张图可能会想，这不是所有的序列预测都是world model了？其实熟悉强化学习的同学能一眼看出来，这张图的结构是错误（不完整）的，而真正的结构是下面这张图，RNN的输入不仅是z，还有动作action，这就不是通常的序列预测了（加一个动作会很不一样吗？是的，加入动作可以让数据分布自由变化，带来巨大的挑战）。

Jurgen的这篇论文属于强化学习领域。那么，强化学习里不是有很多model-based RL吗，其中的model跟world model有什么区别？答案是没有区别，就是同一个东西。Jurgen先说了一段：

基本意思就是，不管有多少model-based RL工作，我是RNN先驱，RNN来做model是我发明的，我就是要搞。

在Jurgen文章的早期版本中，还说到很多 model-based RL，虽然学了model，但并没有完全在model中训练RL。

没有完全在model中训练RL，实际上并不是model-based RL的model有什么区别，而是model-based RL这个方向长久以来的无奈：model不够准确，完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

编注：强化学习算法可以分为无模型（model-free）强化学习与有模型（model-based）强化学习，后者中的模型也被称为世界模型（World model）。在基于世界模型的强化学习方法中，智能体首先学习一个关于环境的内嵌的模型，在内嵌的模型中学习行为决策，从而提高在真实环境中的表现。

聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming（发表在第一次从workshop变成conference的ICML上），管这个 model 叫 action model，强调预测action执行的结果。RL一边从真实数据中学习（第3行），一边从model中学习（第5行），以防model不准确造成策略学不好。

论文题目：Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

论文地址：https://dl.acm.org/doi/10.1145/122344.122377

可以看到，world model对于决策十分重要。如果能获得准确的world model，那就可以通过在world model中反复试错，找到现实最优决策。

这就是 world model 的核心作用：反事实推理/Counterfactual reasoning，也就是说，即便对于数据中没有见过的决策，在world model中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词，在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯：

最下层是“关联”，也就是今天大部分预测模型主要在做的事；
中间层是“干预”，强化学习中的探索就是典型的干预；
最上层是“反事实”，通过想象回答 what if 问题。

Judea为反事实推理绘制的示意图，是科学家在大脑中想象，这与Jurgen在论文中用的示意图异曲同工。

左：Jurgen论文中的世界模型示意图。右：Judea书中的因果阶梯。

到这里我们可以总结，AI研究人员对world model的追求，是试图超越数据，进行反事实推理，回答what if问题能力的追求。这是一种人类天然具备，而当前的AI还做得很差的能力。一旦产生突破，AI决策能力会大幅提升，实现全自动驾驶等场景应用。

Sora 是不是 world simulator

simulator这个词更多出现在工程领域，其作用与world model一样，尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组，但意思不变。

Sora生成的视频，仅能通过模糊的提示词引导，而难以进行准确的操控。因此它更多的是视频工具，而难以作为反事实推理的工具去准确的回答what if问题。

甚至难以评价Sora的生成能力有多强，因为完全不清楚demo的视频与训练数据的差异有多大。

更让人失望的是，这些demo呈现出Sora并没有准确地学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处。（OpenAI 发布文生视频模型 Sora，AI 能理解运动中的物理世界，这是世界模型吗？意味着什么？https://www.zhihu.com/question/644478663/answer/3398992400）

我猜测OpenAI放出这些demo，应该基于非常充足的训练数据，甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线，但看起来简单的堆砌数据并不是通向更高级智能技术的道路。

本文首发于作者知乎：https://zhuanlan.zhihu.com/p/661768957，经作者授权转载。‍

学者简介

自由能原理与强化学习读书会启动

由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”，它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律，从第一性原理出发解释智能体更新认知、探索和改变世界的机制，从而对人工智能，特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云，南京航空航天大学副教授何真，以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥，共同发起「自由能原理与强化学习读书会」，希望从自由能原理这个更底层的视角重新审视强化学习世界模型，探讨自由能原理、强化学习世界模型，以及脑与意识问题中的预测加工理论等前沿交叉问题，探索这些不同领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始，每周日上午10:00-12:00，持续时间预计8-10周。欢迎感兴趣的朋友报名参与！

详情请见：自由能原理与强化学习读书会启动：探索感知和行动的统一原理

推荐阅读

1. 通往具身通用智能：如何让机器从自然模态中学习到世界模型？2. 梅拉妮·米歇尔Science刊文：AI能否自主学习世界模型？3. 当量子计算遇到语言模型：量子互文性助力生成模型 4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划6. 加入集智，一起复杂！

点击“阅读原文”，观看视频回放

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

post-qrcode

AI AR CG F1 Github HTML OpenAI RSS Web 人工智能技术机器人科学视频

发表至：智源

2024年2月23日

0

Cubox创始人的产品思考：不要把「总结全文」当做AI阅读产品的唯一亮点

Pika放大招：今天起，视频和音效可以“一锅出”了！

Nat. Biotechnol. | 蛋白质结构和序列的生成模型

也看利用大模型进行RAG文本嵌入训练数据生成：兼看面向NLP任务的开源指令微调数据集

汇聚DeepMind专家！法国初创获3500万美元融资，用AI改变生物学

时序预测进阶

评论（没有评论）

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder