百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

570次阅读
没有评论

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

北大卢宗青团队 投稿

量子位 | 公众号 QbitAI

北大和人大团队在通用人形机器人动作生成领域取得重大突破!

首创性地提出了具备数据-模型协同放量(Scaling Law)特性的通用动作生成框架Being-M0

通过大规模互联网视频,构建了业界首个百万规模的动作生成数据集MotionLib

又基于此数据集,研发了端到端的文本驱动动作生成模型,实现了具备规模效应的复杂、多样的人类动作生成,做到了人体动作向多类型人形机器人的动作迁移。

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

文章将发表于ICML2025。

创新点

百万级动作数据集MotionLib

  • Being-M0团队构建了业界首个突破百万规模的动作生成数据集,并建立了从原始视频到高质量动作数据的全自动化处理流程,大幅提升了数据获取效率。

大规模动作生成模型

  • 同团队提出的动作生成大模型展现出显著的规模效应,成功验证了“大数据+大模型”在人体运动生成领域的技术可行性,为通用动作智能奠定基础。

多平台动作重定向

  • Being-M0团队创新融合优化与学习方法,实现了动作数据向宇树H1、H1-2、G1等多款人形机器人的高效迁移,显著提升了跨平台运动适配能力。

MotionLib: 突破数据规模瓶颈

人工智能领域,数据规模的突破往往能带来模型性能质的飞跃。

为构建大规模动作数据集,Being-M0团队从公开数据集和在线平台系统性地收集了超过2000万段人体动作视频。面对海量的互联网视频数据,如何实现高质量动作数据的自动化提取成为了关键挑战。

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

为此,Being-M0团队开发了一套创新的数据处理流水线:

首先,基于预训练模型进行2D人体关键点估计,并通过置信度阈值实现初步筛选;随后,采用经过大规模3D数据集训练的先进模型,生成高精度的3D关键点数据。

在动作标注方面,针对现有数据集普遍存在的描述粒度粗糙问题(通常仅用单句话概括整个动作),团队创新性地提出了分层标注方案:

该方案利用Gemini-1.5-pro为每个视频生成了结构化描述,不仅包含动作的整体语义,还详细记录了手臂、腿部等身体部位的运动特征。这种细粒度的标注体系为高精度动作生成提供了关键支持。

MotionLib的独特优势还体现在其多模态特性上:每个动作序列不仅包含标准RGB视频,还提供了深度信息等辅助数据,并支持多人交互场景的分析。这些丰富的多模态信息显著拓展了数据集的应用场景。

经过严格的质量筛选流程,Being-M0团队最终构建了包含超过100万条高质量动作序列的数据集,其规模达到现有最大公开数据集的15倍,为突破动作生成领域的规模瓶颈奠定了坚实基础

大规模动作生成:从语言到动作

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

随着MotionLib数据规模实现数量级突破,如何充分释放大规模数据的性能红利成为了关键问题。

通过系统性实验,Being-M0团队首次在动作生成领域验证了模型规模与数据规模之间的协同放大效应(Scaling Law)。研究表明:
1)在同等数据条件下,模型容量与生成质量呈显著正相关,13B参数的LLaMA-2模型相较700M参数的GPT2,在动作多样性和语义对齐精度等核心指标上均实现突破;
2)大模型展现出更优的数据利用率,在数据规模扩展时保持稳定的性能增长曲线。

这些发现不仅验证了“大数据+大模型”技术路线的普适性,更为构建通用动作生成模型提供了关键设计准则。

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

传统方法在将大语言模型应用于动作生成时面临根本性挑战:主流向量量化(VQ)技术将高维动作数据压缩为一维离散token,导致时序动态和关节协同等关键结构化信息严重损失。这种单维表征方式不仅受限于有限codebook容量,更难以刻画人体运动的连续细微变化。

针对这一瓶颈,Being-M0团队提出MotionBook——业界首个二维无查找量化框架。该技术突破性创新包括:

  1. 空间-时序解耦编码

将动作序列建模为单通道二维”动作图像”,分别在时间轴和关节轴构建独立编码空间,完整保留运动的多维结构特征;

  1. 动态扩展词表

通过降维投影消除传统codebook查找环节,使动作词表容量提升两个数量级;

  1. 坍塌免疫机制

创新性的参数化离散策略从根本上避免了传统VQ的codebook坍塌问题。

实验表明,这种表示方法能更好地发挥大模型的潜力,特别是在生成精细动作方面具有明显优势,为构建下一代动作生成模型奠定了新的技术基础。

高效动作重定向:从人体到人形机器人

将生成的人体动作迁移到实体机器人是实现文本驱动人形机器人动作生成的最后一环。

实现文本到机器人动作的闭环需要解决跨形态动作迁移这一核心挑战。

由于不同人形机器人在自由度配置、连杆尺寸等方面存在显著差异,将人体动作重定向到机器人时,传统基于运动学逆解或关节角度直接映射的方法往往导致动作失真甚至动力学不可行。

为解决这一问题,Being-M0团队提出了”优化+学习”的两阶段解决方案:

在训练数据构建阶段,通过多目标优化方法生成满足机器人运动学约束的动作序列——优化过程不仅考虑了关节限位等基本约束,还考虑了动作轨迹的平滑性和稳定性。这种基于多目标优化的方法虽然计算开销较大,但能保证生成数据的高质量,为后续的学习阶段打下良好基础。

在动作映射阶段,采用轻量级的MLP网络学习从人体动作到人形机器人动作的映射关系。通过精心设计的网络结构,该方法实现了对H1、H1-2、G1等多个机器人平台的高效支持。

与直接优化相比,基于神经网络的方法显著提升了系统的实时性能,同时保持了动作迁移的准确性。

BeingBeyond:打造通用具身智能,推动机器人走进千家万户

Being-M0由来自智在无界、北京大学、人民大学和智源研究院的研究团队共同打造。

MotionLib是业界首个百万规模动作生成数据集;Being-M0验证了“大数据+大模型”在动作生成领域的技术可行性,为面向人形机器人的通用动作生成模型奠定了基础。

研究团队表示,BeingBeyond将持续迭代人形机器人的具身大模型、灵巧操作、全身运动控制等,在未来让机器人涌现更强的通用能力和自主性。

项目地址:https://beingbeyond.github.io/Being-M0/
论文链接:https://arxiv.org/abs/2410.03311

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...