让宇树机器狗在北大未名湖畔捡垃圾，银河通用干的

衡宇
2025-03-28
12:48:22

来源：量子位

已被ICRA 2025接收

衡宇发自凹非寺

量子位 | 公众号 QbitAI

机器狗不语，只是一味地在北大未名湖畔捡垃圾。

好了明说吧，垃圾是摆拍的道具，但这长脖子的狗子，是真的有点功夫在身上的！

背后算法QuadWBG，搭载了模块化框架，包含运动、感知、操作和规划四个模块；首次在移动抓取任务中引入通用定向可达性映射（Generalized Oriented Reachability Map），提升机器人在六自由度基座下的全身操作泛化能力。

并且结合强化学习与运动规划，使抓取成功率从以往的30%左右，拉升到89%。

项目背后团队来自北大、银河通用、多伦多大学和智源研究院，相关论文已被ICLR 2025接收。

该工作的一作Jilong Wang对量子位表示，这项关于Loco-manipulation的创新成果，其中的操作能力可以从狗子身上泛化到人形机器人身上。

现在很多机器人厂商的机器人，更加擅长的是运动控制（而不是操作能力）。
我们希望能把模型操作能力赋能更多机器人本体，不管是人形还是别的。

Local-Manipulation创新成果

俗话说得好（不是），狗好，垃圾坏。

于是在北大校园里的各个角落，就出现了宇树机器狗B1如下的繁忙身影。

在QuadWBG的加持下，这只狗子不仅可以在现实世界中，从不同位置对地面上的物体进行抓取。

还可以很精确地在杂乱环境中抓住透明or镜面物体，然后放进身上的小背篓里。

先来个前情提要——

该团队的任务是给定一个目标物体的位置，机器狗需要高效地接近目标物体并最终抓取目标物体。

机器人本体由四足机器狗、6自由度机械臂和平行抓夹组成。

机械臂末端安装了一个RGBD摄像头，成为了长颈狗子的眼睛，用来获取场景的RGB和红外信息。

如果要把任务归类，这是一个非常典型的Local-Manipulation（运动——操作一体化）任务，它通常指智能体通过物理身体与环境进行局部交互，以实现特定任务的能力。

而「上肢（机械臂）+足式机器人」的Local-Manipulation最早于2023年被提出，后来不断快速发展。

值得注意的是，针对足式机器人的Local-Manipulation，不能直接将抓取检测结果应用于机械臂运动规划，因为它忽略了本体和机械臂运动之间所需的协调。

而且由于动作维度不断拓宽，现实世界的物理交互又非常复杂，加上地形、视觉等，准确度和通用性仍然被限制了。

不过现在，端到端的RL已经提高了运动技能，推动了全身运动与操作端到端策略的发展，使机器狗子们能够执行需要运动并且与物体交互无缝协调的任务。

Just like在未名湖畔捡垃圾的小狗子。

解密时刻！

北大校园里勤勤恳恳的小狗子，之所以能精确识别并抓取地上的各种垃圾，是因为QuadWBG借鉴了多种抓取检测技术的成功经验，通过将抓取姿态检测与运动规划相结合。

值得一提的是，这也是首次在移动抓取任务中引入通用定向可达性映射，提升机器人在六自由度基座下的全身操作泛化能力。

可以精准抓取透明物体，哪怕它们挤在一起：

还可以坚持不懈地疯狂捡拾，把各种材质的各种物体装进背篼里：

最后，结合RL与运动规划，在仿真环境中，无论物体的大小或几何复杂性如何，狗子在所有测试物体上均取得了显著更高的成功率，性能非常稳定。

在实际操作中，狗子在14个不同物体实例、配置和环境中的全身抓取成功率达到了89%。

而在此之前的SOTA，仅在30%左右。

针对任务中较难的透明物体抓取，10次连续抓取也取得了80%的单次抓取成功率。

这是怎么做到的？

Jilong Wang解释道，其核心创新，在于模块化结构和通用定向可达性映射。

两大核心创新

通用定向可达性映射，即GROM，是QuadWBG的两大创新之一。

它是4个模块中“规划模块”的产物。

因此，在对话过程中，Jilong Wang按照模块执行任务的逻辑和顺序来向量子位介绍了该工作的2大创新点。

至于为什么要做模块化，Jilong Wang给出的解释是：“因为现在端到端还不足以产生足够精确的结果，而模组能够让它产生很精确的全身数据，然后我们又把现实世界的数据提供给端到端的模型进行训练。”

也就是说，团队还是希望用模型自身的能力对现实世界进行感知，然后规划运动，而不是人工手动设计。

最后的目标是实现端到端操作，这样也就“没有仿真环境和现实环境的gap了”，还很省钱。

话不多说，先来看看模块化结构这个创新点——

QuadWBG是一个模块化通用四足全身抓取框架，该框架包含运动、感知、操作和规划四个模块。

第一个，运动模块，见上图A。

它负责将本体感知信息（包含当前运动指令，关节位置与速度等）编码成隐式状态信息，并通过多层感知器（MLP）生成动作来满足当前运动指令的要求，从而实现鲁棒的移动能力。

第二个，感知模块，见上图B。

为了实现实时跟踪和精确的抓取姿态预测，感知模块利用ASGrasp接收红外图像和RGB图像作为输入，能够预测精确的深度信息。

随后，预测的深度点云被输入到GSNet中，从而生成更精确的六自由度抓取姿态。

第三个，操作模块，见上图C。

操作模块采用了一种运动规划方法，以解决全身RL策略在末端执行器控制中的不精确性问题。

该系统在2个不同的阶段运行：跟踪阶段和抓取阶段。

首先是跟踪阶段，团队将安装的摄像头运动限制在一个预定义的跟踪球体内，并使用可达性映射（RM，Reachability Map）来定义跟踪球体。

在该空间内，任意方向上都存在有效的反向运动学（IK，Inverse Kinematics）解。

切换机制基于RM和阈值可达性标准构建。

在每个规划步骤中，团队使用RM计算所选抓取姿态的可达性；一旦达到阈值，系统将切换到抓取阶段。

其运动规划器在线生成轨迹，使系统能够在向目标移动时适应小的意外运动。

第四个，规划模块，见上图D。

规划模块基于目标抓取位姿，利用通用定向可达性映射来生成移动指令。

现存的ORM（Oriented Reachability Map）能够高效地表示相对于TCP（Tool Center Point）坐标系的潜在基座位姿。

然而，ORM有其限制性——机器人基座必须在平坦表面上。

对此，QuadWBG项目中的银河通用团队提出了GORM，它支持六自由度的机器人基座放置，对于世界坐标系中的任意目标位姿，均可通过RM的逆运算计算潜在的基座到世界的分布。

一旦定义了目标位姿，GORM将提供高质量潜在基座位姿的分布。

团队训练高层策略以最小化当前基座位姿与最近可行位姿之间的距离，以鼓励机器人移动到基座位姿候选位置。

Jilong Wang进一步解释了这一创新性贡献：

它本身的意义就是在6D空间中给任意位姿，GORM能通过解析的方式告诉你，基座出现在哪个范围、哪个分布是最利于去抓取物体的。

△蓝色箭头是最佳位姿的向量表示

由于GORM在目标位姿坐标系中定义，因此只需计算一次，使其非常高效且非常适合并行训练。

One More Thing

然鹅，由于每次抓取前都要计算出最佳位姿，这就导致了目前的一个局限性：

即便紧挨在一起的两三个垃圾，机器狗也不能通过一次识别、一次移动就连续抓取n个。

它必须得经历“识别——移动到最佳位姿——抓取——再识别——移动到新的最佳位姿——抓取”这样的过程。

具体表现就像下面这张图中这样：

捡完一个垃圾后，机器狗必须得退两步，重新识别，然后再根据新规划的最佳位姿，靠近垃圾，然后抓取。

不过！

Jilong Wang表示，团队正在想办法解决这个问题，希望实现狗子不需要退回去，看一次就能把运动范围内的垃圾都捡起来。

减少狗子的工作量，提高效率。

毕竟保护动物，人人有责——哪怕是机器动物（doge）。

参考链接：

[1]https://quadwbg.github.io/

[2]https://arxiv.org/abs/2411.06782

2025 年 3 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

让宇树机器狗在北大未名湖畔捡垃圾，银河通用干的

让宇树机器狗在北大未名湖畔捡垃圾，银河通用干的

Local-Manipulation创新成果

两大核心创新

One More Thing

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

刚开年，马斯克就到账了200亿美金！

B站开启AI创作大赛，首次开放《三体》改编权，奖金总计超300万

卓世科技，股改完成！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

刚开年，马斯克就到账了200亿美金！

B站开启AI创作大赛，首次开放《三体》改编权，奖金总计超300万

卓世科技，股改完成！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛