缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

345次阅读
没有评论

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

一套端到端在线训练方案

SimpleVLA-RL团队 投稿

量子位 | 公众号 QbitAI

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。

然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。

为此,研究团队提出了SimpleVLA-RL。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

SimpleVLA-RL通过 “交互式轨迹采样+结果奖励+探索增强” 的设计,解决了VLA模型训练的三大核心瓶颈:

  • 降低对大规模演示数据的依赖,提升数据效率;
  • 增强模型在分布偏移场景下的泛化能力;
  • 实现高效的Sim-to-Real迁移,提升真实世界任务性能。

实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了SoTA的性能。更为关键的是,即便在有限数据的条件下,SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力。

在 “单轨迹 SFT”(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7%

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

此外,模型在训练过程中还展现出自主探索能力,并涌现出新的操作策略,例如通过“推动”替代“抓取”的Pushcut现象。这些结果表明,SimpleVLA-RL为VLA模型的高效训练与泛化能力提升开辟了新的研究路径。

SimpleVLA-RL:端到端在线训练方案

VLA模型作为机器人操控领域的重要研究范式,旨在融合视觉感知、语言理解与动作生成,从而在复杂物理环境中实现灵活的任务执行。

现阶段的主流训练流程通常遵循 “大规模预训练+有监督微调” 的范式。然而,该方法在实际应用中面临两大核心瓶颈:

数据稀缺性

SFT依赖于大规模的高质量机器人操作轨迹,而此类数据的采集过程需要精心构建实验场景、涵盖多样化的交互对象,并依赖专业操作人员完成。由此导致采集成本高昂、规模受限,从根本上制约了其可扩展性。

泛化能力不足

SFT的学习过程高度依赖于任务与场景特定的数据分布,因而在面对分布外任务(out-of-distribution tasks)、全新环境或未见过的对象时,模型性能会显著下降,尤其在长时序依赖与组合型任务中尤为明显。

与此同时,大规模推理模型(如DeepSeek-R1)的最新进展表明强化学习在仅依赖结果奖励的情况下,也能显著提升模型的逐步推理能力。

这引出了一个自然的问题:RL能否同样有效地增强 VLA 模型在长时序任务中逐步规划动作的能力?然而将RL直接应用于VLA训练又面临一些独特挑战:

1、传统机器人RL往往依赖人工设计的过程奖励,该方式难以扩展至复杂的开放环境;

2、VLA的训练需要与物理或高保真模拟环境进行多轮交互,训练效率低,成本远高于基于文本的LLM推理优化。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

基于上述问题,研究团队出了SimpleVLA-RL,它是在veRL(LLM强化学习框架)上扩展的一套端到端在线训练方案,专门针对VLA模型的特点做了优化。

整体设计主要包含四部分:

首先是交互式轨迹采样。与LLM仅依赖文本token采样不同,VLA必须在闭环中不断更新视觉观测和机器人状态。

因此,SimpleVLA-RL让模型直接输出动作token的概率分布,用随机采样生成多样轨迹。整个过程中,机器人执行动作后环境返回新状态,再继续生成,直到任务完成。

其次是结果奖励建模。研究人员不再使用复杂的过程奖励(如距离目标远近),而是采取极简的二元结果:

任务成功记为1,失败记为0,并将这个奖励均匀分摊到整个轨迹的动作token上。

这样一来,不仅避免了过程奖励在不同任务间的不可迁移性,也省去了针对任务调参的麻烦,更好地聚焦了训练目标。

第三是探索增强。VLA模型很容易因为训练数据过于单一而收敛到狭窄解法,从而导致rollout的轨迹高度同质化进而影响GRPO的优势估计。

为了解决这个问题,SimpleVLA-RL在三个地方做了调整:

  • 动态采样,只保留“部分成功、部分失败”的轨迹组,确保优势估计有效,避免梯度消失;
  • 扩大GRPO的裁剪区间,从[0.8, 1.2]放宽到[0.8, 1.28],让低概率但可能有价值的动作更容易被保留;
  • rollout阶段提高采样温度,从1.0提升到1.6,以此鼓励更多样化的探索。

最后是训练目标。基于上述的一系列改进,团队进一步对GRPO做了简化:移除了KL散度正则项,不再依赖参考模型,从而减少内存消耗,也让新行为的探索不受束缚。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

研究团队的主要贡献可以总结为如下几点:

构建VLA专属高效RL框架:基于veRL扩展,加入VLA交互式轨迹采样、多环境并行渲染及 “训练-推理-渲染” 一体化设计,解决VLA与环境交互慢、成本高的问题,支持规模化训练。

最优性能:团队引入了探索增强策略,使性能稳定提升10–15%。在LIBERO与RoboTwin 1.0 & 2.0等基准上,SimpleVLA-RL超越多个现有SoTA模型。

数据效率与泛化能力:仅需单个演示轨迹,RL即可将LIBERO-Long的成功率从17.1%提升至91.7%,并在空间、物体与任务泛化上显著优于SFT。

真实世界可部署性:仿真环境中训练的策略能够有效迁移至真实机器人,实现强大的仿真到现实(sim-to-real)性能提升,无需额外的真实机器人数据。

发现 “Pushcut” 新现象:RL训练使模型自主探索出人类演示之外的新策略。

基准测试性能:刷新SOTA

SimpleVLA-RL基于OpenVLA-OFT(autoregressive VLA模型)实现,在三大基准测试(LIBERO、RoboTwin1.0、RoboTwin2.0)及真实世界任务中验证,核心结果如下:

LIBERO(单臂操控基准)

在Spatial、Object、Goal、Long四个任务集上,SimpleVLA-RL将OpenVLA-OFT 的平均成功率从91.0%提升至99.1%,其中长时序任务LIBERO-Long提升12.0个百分点(86.5%→98.5%),超越π₀(85.2%)、UniVLA(92.0%)等SOTA模型。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

RoboTwin1.0(双臂操控基准)

四个任务平均成功率从39.8%提升至70.4%,其中 “Blocks Stack” 任务提升33.1个百分点(7.1%→40.2%)。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

RoboTwin2.0(高多样性双臂基准)

覆盖短/中/长/超长时序12个任务,平均成功率从38.3%提升至68.8%,超越π₀(49.2%)和RDT(33.3%)。即使是需多轮交互的超长时序任务(如 “Put Bottles Dustbin”),也提升18.7个百分点。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

在LIBERO的 “9个已见任务训练+1个未见任务测试” 实验中,SimpleVLA-RL与SF 表现出显著差异:

SFT:在已见任务成功率达90%以上时,未见任务出现 “灾难性遗忘”,部分任务成功率降至0%(如LIBERO-Goal的3个未见任务);

SimpleVLA-RL:所有未见任务成功率均提升,其中LIBERO-Object的 “Unseen Task 2” 提升36.5个百分点,LIBERO-Spatial 的 “Unseen Task 1” 从43.3%提升至71.8%,证明RL能学习通用技能而非过拟合特定数据。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

仅使用仿真数据训练(无真实数据),在AgileX Piper机械臂上测试4个真实任务:

OpenVLA-OFT 的平均成功率仅17.5%,“Pick Bottle” 任务完全失败。

SimpleVLA-RL将平均成功率提升至38.5%,“Stack Bowls” 提升32个百分点(38.0%→70.0%),“Pick Bottle” 实现14%成功率,证明RL能增强仿真模型的真实环境适配性。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

在RoboTwin 2.0的 “Move Can Pot” 与 “Place A2B Right” 两个任务中,SFT模型仅能复现演示数据中显式呈现的“抓取–移动–放置”操作序列。

相比之下,经过SimpleVLA-RL训练的模型能够自主探索并发现更高效的替代策略,例如直接通过“推”的方式将罐子移至目标位置。研究团队将这种现象定义为 “Pushcut”,其特征是能够突破人类演示模式限制,利用奖励信号探索并采纳演示外的路径。

他们认为其本质在于结果奖励并不约束具体动作模式,而是允许模型在满足任务目标的前提下,自主选择最优或更简洁的行为路径。

“Pushcut” 现象证明RL能让VLA模型超越人类演示的局限并探索更优策略,为未来自主、自适应VLA模型的研发提供了新范式。

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

论文链接:https://arxiv.org/pdf/2509.09674
Github链接:https://github.com/PRIME-RL/SimpleVLA-RL

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...