训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

12次阅读
没有评论

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

“国内UMI能训出模型的就三家”

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

“我们只交付100%可以复现的轨迹。”

具身智能创企鹿明机器人媒体沟通会上,联席CTO丁琰对具身智能数据采集现状、困境,以及最新兴的采集方式UMI作了前沿的深度分享。

他在分享中反复强调,很多团队以为具身模型训不出来是卡在训练阶段,实际多数问题在数据生成的起点就已经埋下了。后面再堆模型、堆算力,只是在给错误输入继续加速。

丁琰的履历能解释他为什么会把“数据的可训练性”看得这么重。

他的研究方向是机器人学与具身智能,2024年3月从美国纽约州立大学计算机学院博士毕业。去年年底加入鹿明之前,他做过一星机器人的CTO,更早则在上海AI Lab担任研究员。

按他的说法,从2024年3月起,他就持续投入UMI方向,是大陆最早做UMI方向的人。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

UMI全称叫Universal Manipulation Interface,最早来自斯坦福在2024年2月提出的一套工作。

其核心是用与具体机器人本体解耦的方式,记录人类在真实物理世界中的操作行为,把“操作意图+运动轨迹+多模态感知”统一到一个通用接口里,供不同形态的机器人学习和复现。

在去年9月之前,UMI还是一个偏冷门的方向。

具身智能进入下半场后,数据的重要性与日俱增。

丁琰分享道,前段时间有人归纳了具身智能在解决数据难题时的四种解法

  • 遥操作数据,最著名的代表是智元机器人。
  • 仿真数据,代表公司是银河通用机器人。
  • 人类视频数据,它石智能就是这种解法的代表。
  • UMI,去年9月开始冒头,鹿明就是代表性公司。

鹿明基于现实需求,做出了一个名为FastUMI Pro产品,这是一个无本体数采硬件。

系统适配市面主流机械臂和夹爪,机身重量在600多克量级,但能夹起两三公斤物品,场景覆盖工厂与家庭。

它还支持多模态输入,包括触觉、听觉、六维力等。

在UMI设备最核心的空间精度上,丁琰称FastUMI Pro的1mm是“全球最高精度”。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

硬件产品背后,还有鹿明布局的数据采集、模型训练生态。

以“可复现”作为第一性原理做数据治理,丁琰带领团队建立了8道工业级数据质量评估体系,并承诺只交付100%可复现轨迹。

(以下为丁琰分享的关于具身行业数采、UMI等相关内容,在不改变原意的基础上作了编辑调整)

具身数采的现存痛点

2024年3月起,我就开始在做UMI,应该是大陆最早做这一块的人。

大家都知道,具身智能最关键的就是数据,海量的数据是训练的一个必经之路。

但是数据现在有很多痛点。

第一个痛点就是成本,成本异常高昂。

美国那边,为了采集一个小时的训练数据,大概要付出100-200美金的成本。

现在的具身模型都还很小,PI 0的训练数据大概是1万个小时,Generalist的GEN 0是27万个小时。这个规模对比GPT-3的训练数据,还是非常小的。

我们做了一个统计,大概相当于7.9亿个小时的数据,才能在具身智能界训出一个GPT-3规模的模型。按照现在的市场价格,需要耗费数百亿美金。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

另外,具身数据整体采集效率还是比较低的。

2023年到2024年左右,业内都是以遥操为主,一个小时大概能采集35条数据,效率异常低,成本也不可控。

遥操还有个问题是什么呢,就是采集时,因为摄像头记录的是机械臂本身的运动轨迹和画面,但每家机器人长得又都不一样,所以用A机器人做遥操作采集的数据是很难很难用到B机器人上的,这就产生了数据孤岛问题。

大家重复造轮子,也会造成高昂的隐形成本。

这是我们想解决的关键问题所在。

用UMI数采,你为什么训不出来模型?

前段时间我写了一篇小红薯,题目叫《你为什么训练不出来UMI的模型?》。

我想就这次机会简单跟大家介绍一下UMI行业的现状。大家可能看到的更多的是冰山的一角,但浮在水下面的一个世界还是比较深的。

一个很明显的现状就是什么呢?

做UMI的人陆陆续续越来越多,但是训出来模型的异常的少,可能一只手都数得过来。

很多UMI设备涌现出来,大家都会强调自己低成本、能即插即用、快速部署,但是基本上你看不到什么成功的案例,就这个是非常非常有意思的现象。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

国外有两家比较知名的公司,一个叫Sunday,一个叫Generalist,他们还是训出模型了。

国内目前我们觉得训模型训得比较好的一家就是我们,再有就是清华一家,上交一家,总共也就两、三家能训得出来。

大多数情况下,要么训不出来,要么即使是在相似的条件下能跑出来demo,时间也非常短,可能就3、4秒,也很卡顿,不丝滑。

关于为什么大家用UMI采集出来的数据训不出模型,最常见的解释是“算法不是很成熟”“模型不够大”“数据规模不足”,但是其实这些解释都不是真正的原因。

真正的原因根本不在于训练阶段,而在于训练之初它就不是太对——

大量的UMI数据从生成开始就不具备进入训练管线的这个条件。

说白了就是数据不合格。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

什么是可以训练的UMI数据

大家会有误解,总觉得UMI数据就是人拿个夹爪,就把这个视频数据记录下来就行了,非常非常简单,所有人都可以做。

其实完全不是。

UMI其实是AI对物理世界的理解对齐,并且在这个物理空间里面可以复现的这种交互行为。

它必须满足几个条件。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

拆开了讲,第一个就是说画面要跟动作要严格对齐,要跟空间位置严格对齐;另外一个就是说因为UMI可以集成多个传感器,每个传感器之间也要做到毫秒级的同步。

举个例子,一个人想去拿眼前的一瓶水,不对齐的话得反应好几秒,水就可能拿不起来。

另外,一个好的轨迹必须可以在物理空间运动中可复现的。

本质要求是希望UMI采集的数据是高一致性的、高密度的,并且可复现的时序数据结构。

为什么大多数UMI设备采不到好的数据?

现在大量的UMI设备采不出满足条件的数据,两个根本原因。

一,核心问题是硬件能力完全不够。

UMI的CMOS组件或者主控芯片,性能非常差。

导致的结果就是画面覆盖有限,画质不怎么好,曝光也不怎么好,帧率比较抖动,这时候画面就非常糟糕。

它破坏了动作和视觉的因果关系。本来模仿学习就是我看到什么画面就做什么动作,结果画面和动作完全无法对齐,就会导致这个模型根本没办法学习。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

二,市面上很多产品不是系统设计的,而是很多现成模块拼凑起来,用USB Hub连接的。

这样一来,产品的贷款架构非常脆弱,每个模块都会抢带宽。一旦有什么负载,就会出现掉帧等一系列问题,所以数据的质量就非常糟糕,基本没办法稳定复现交互记录。

也就是说,从硬件层面讲,这些设备从一开始就没办法训出模型需要的数据。

“脏数据”和“废数据”

但即使设备好了,采的数据能不能训出数据也不是一定的。

举个例子,别人拿到我们的设备,也不一定能训出好的数据。

为什么呢?这就要说数据的质量高低了。

数据质量的高低其实并不是干净程度,而是说有效的信息密度。

低质量的数据,包含大量抖动、漂移、时间错位,非常不利于学习。特别是在单视角情况(很多UMI是单个机械臂),这种噪声不会因为你的数据量增大而被平滑掉,所以说你学出来的策略会非常非常糟糕,基本上训不出来。

低价值数据不是完全没有价值。

它还是有点价值,可以去认识这个世界,知道什么是杯子,什么是麦克风,但没办法从它身上学习到精确的物理交互信息

它不知道桌上的麦克风我是怎么拿到的,我到底该正着拿还是反着拿,还是需要倾斜角度去拿。

除了低质量的脏数据,我还把一种数据叫“废数据”。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

废数据是什么?

就是很多人拿着设备直接去众包去采集了,人怎么采就拿它怎么采。

这种数据完全copy人类的自然行为,没有任何设计和技巧,过于“天然去雕饰”了,基本上是不可能训出来模型的。

现在都在做的叠衣服,其实是最需要采集技巧的一个任务。叠衣服的时候要抖一下,抖的过程中还要注意方向、速度,才能抖好。

但人在叠衣服的时候,很少会注意那么多tricks。

每家具身公司都有自己的采集技巧,所以如果没有注入任何技巧,即便拿到很好的UMI设备,采集的数据很像人的行为,但其实是废数据,基本上模型训练不了。

能当然可能未来,十年、二十年,模型发展好了,这些数据可能就有用了。但目前很长一段阶段这些数据基本上训不了,所以称为废数据。

硬件、数据和算法环环相扣

正确的UMI的工程范式首先是一种系统的自洽,而不是一种简单的功能拼接。

传统的路径下面大家做机器人,首先有个硬件,硬件弄完了之后再弄软件,弄完软件我再弄算法,我反过头来我再去补点数据,把这个整个loop给跑通。

在UMI这个很特殊的场景下,这个范式是失效的。

因为UMI是一个强耦合系统,数据会决定整个模型的性能,硬件会决定这个数据的质量;数据又会决定这个算法的性能,算法又会反向去约束我这个硬件的执行和这个数据的设计。

硬件、数据和算法环环相扣,任何单点的这种失效都会导致训不出优秀的模型。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

关于UMI,团队做了什么

博士毕业后,我从2024年3月就开始在做面向UMI的工作。

去年9月之前,UMI在行业里还是比较冷门的,除了我和我的团队基本没人做。

当时我们就有一个愿景,希望能打破这个数据获取的这个不可能的三角,把非常高质量的数据砍到白菜价,加速应用来推进这个整个具身智能行业的发展。

这里跟大家分享我和团队近两年的一些典型工作。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

首先就是FastUMI,我是这篇工作的通讯作者。

FastUMI应该是全球首个将学术界(UMI,斯坦福,2024年2月)的工作升级成工业级别系统,然后推进它进入工业的。我们从2024年3月左右开始做这个工作,在7、8月左右完成,当年的9月中了CoRL 2025。

FastUMI主要解决的问题是提高采集效率和数据质量。

另外一个工作是FastUMI 100K

在有了一个很稳定的软硬件系统后,我们开始扩大规模去采数据。当时我在上海AI Lab建立了一个数采长,我带着11个人在3个月时间里,采集了10万条真机数据,为机器学习提供了非常高质量的数据支持。

这是全世界首个大型的UMI数据集。

从这个工作中FastUMI团队获得了大规模的数据治理的经验。

我们还有一个工作叫Fastumi-MLM,它把UMI这项技术用于“狗+臂”。

之前UMI都应用在单臂、双臂或者轮式双臂工作上。这是大陆第一个能将UMI用在这种构型机器人上的工作。

除此之外,还有Spatial VLA、Agibot World、AskVLA等等。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2026 年 1 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...