LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

405次阅读
没有评论

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

物理学正在走向人工智能——

Meta开源发布V-JEPA 2世界模型:一个能像人类一样理解物理世界的AI模型。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

图灵奖得主、Meta首席AI科学Yann LeCun亲自出镜宣传,并称:

我们相信世界模型将为机器人技术带来一个新时代,使现实世界中的AI智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

那什么是世界模型呢?

简单说,就是能够对真实物理世界做出反应的AI模型。

它应该具备以下几种能力:

  • 理解:世界模型应该能够理解世界的观察,包括识别视频中物体、动作和运动等事物。
  • 预测:一个世界模型应该能够预测世界将如何演变,以及如果智能体采取行动,世界将如何变化。
  • 规划:基于预测能力,世界模型应能用于规划实现给定目标的行动序列。

V-JEPA 2(Meta Video Joint Embedding Predictive Architecture 2 )是首个基于视频训练的世界模型(视频是关于世界信息丰富且易于获取的来源)

它提升了动作预测和物理世界建模能力,能够用于在新环境中进行零样本规划机器人控制

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

V-JEPA 2一发布就引起了一片好评,甚至有网友表示:这是机器人领域的革命性突破!

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

62小时训练即可生成规划控制模型

V-JEPA 2采用自监督学习框架,利用超过100万小时的互联网视频和图像数据进行预训练,不依赖语言监督,证明纯视觉自监督学习可以达到顶尖表现。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

上图清晰地展示了如何从大规模视频数据预训练到多样化下游任务的全过程:

输入数据:利用100万小时互联网视频和100万图片进行预训练。

训练过程:使用视觉掩码去噪目标进行视频预训练。

下游应用分为三类:

  • 理解与预测:行为分类、物体识别、行为预测;
  • 语言对齐:通过与LLM对齐实现视频问答能力;
  • 规划:通过后训练行动条件模型(V-JEPA 2-AC)实现机器人操作。

V-JEPA 2采用联合嵌入预测架构(JEPA),主要包含两个组件:编码器预测器

编码器接收原始视频并输出能够捕捉有关观察世界状态的语义信息的嵌入。

预测器接收视频嵌入以及关于要预测的额外上下文,并输出预测的嵌入。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

研究团队用视频进行自监督学习来训练V-JEPA 2,这就能够在无需额外人工标注的情况下进行视频训练。

V-JEPA 2的训练涉及两个阶段:先是无动作预训练(下图左侧),然后是额外的动作条件训练(下图右侧)。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

经过训练后,V-JEPA 2在运动理解方面取得了优异性能(在Something-Something v2上达到77.3的 top-1准确率),并在人类动作预测方面达到了当前最佳水平(在Epic-Kitchens-100上达到39.7的recall-at-5),超越了以往的任务特定模型。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

此外,在将V-JEPA 2与大型语言模型对齐后,团队在8B参数规模下多个视频问答任务中展示了当前最佳性能(例如,在PerceptionTest上达到84.0,在TempCompass上达到76.9)。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

对于短期任务,例如拾取或放置物体,团队以图像的形式指定目标。

使用V-JEPA 2编码器获取当前状态和目标状态的嵌入。

从其观察到的当前状态开始,机器人通过使用预测器来想象采取一系列候选动作的后果,并根据它们接近目标的速度对候选动作进行评分。

在每个时间步,机器人通过模型预测控制重新规划并执行朝向该目标的最高评分的下一个动作。

对于更长期的任务,例如拾取物体并将其放置在正确的位置,指定一系列机器人试图按顺序实现的视觉子目标,类似于人类观察到的视觉模仿学习。

通过这些视觉子目标,V-JEPA 2在新的和未见过的环境中拾取并放置新物体时,成功率达到65%–80%。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

物理理解新基准

Meta还发布了三个新的基准测试,用于评估现有模型从视频中理解和推理物理世界的能力

虽然人类在所有三个基准测试中表现良好(准确率85%–95%),但人类表现与包括V-JEPA 2在内的顶级模型之间存在明显差距,这表明模型需要改进的重要方向。

IntPhys 2是专门设计用来衡量模型区分物理上可能和不可能场景的能力,并在早期的IntPhys基准测试基础上进行构建和扩展。

团队通过一个游戏引擎生成视频对,其中两个视频在某个点之前完全相同,然后其中一个视频发生物理破坏事件。

模型必须识别出哪个视频发生了物理破坏事件。

虽然人类在这一任务上在多种场景和条件下几乎达到完美准确率,但当前的视频模型处于或接近随机水平。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

Minimal Video Pairs (MVPBench)通过多项选择题测量视频语言模型的物理理解能力。

旨在减轻视频语言模型中常见的捷径解决方案,例如依赖表面视觉或文本线索以及偏见。

MVPBench中的每个示例都有一个最小变化对:一个视觉上相似的视频,以及相同的问题但答案相反。

为了获得一个示例的分数,模型必须正确回答其最小变化对。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

CausalVQA测量视频语言模型回答与物理因果关系相关问题的能力。

该基准旨在专注于物理世界视频中的因果关系理解,包括反事实(如果……会发生什么)、预期(接下来可能发生什么)和计划(为了实现目标下一步应该采取什么行动)相关的问题。

虽然大型多模态模型在回答视频中“发生了什么”的问题方面能力越来越强,但在回答“可能发生了什么”和“接下来可能发生什么”的问题时仍然存在困难。

这表明在给定行动和事件空间的情况下,预测物理世界可能如何演变方面,与人类表现存在巨大差距。

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

One More Thing

Meta还透露了公司在通往高级机器智能之路上的下一步计划。

目前,V-JEPA 2只能在单一时间尺度上学习和进行预测。

然而,许多任务需要跨多个时间尺度的规划。

所以一个重要的方向是发展专注于训练能够在多个时间和空间尺度上学习、推理和规划的分层次JEPA模型。

另一个重要的方向是多模态JEPA模型,这些模型能够使用多种感官(包括视觉、音频和触觉)进行预测。

项目地址:
GitHub:https://github.com/facebookresearch/vjepa2
Hugging Face:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

参考链接:
[1]https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
[2]https://x.com/AIatMeta/status/1932808881627148450
[3]https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...