让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

21次阅读
没有评论

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

已被ICRA 2025接收

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

机器狗不语,只是一味地在北大未名湖畔捡垃圾。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

好了明说吧,垃圾是摆拍的道具,但这长脖子的狗子,是真的有点功夫在身上的!

背后算法QuadWBG,搭载了模块化框架,包含运动、感知、操作和规划四个模块;首次在移动抓取任务中引入通用定向可达性映射(Generalized Oriented Reachability Map),提升机器人在六自由度基座下的全身操作泛化能力。

并且结合强化学习运动规划,使抓取成功率从以往的30%左右,拉升到89%。

项目背后团队来自北大、银河通用、多伦多大学和智源研究院,相关论文已被ICLR 2025接收。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

该工作的一作Jilong Wang对量子位表示,这项关于Loco-manipulation的创新成果,其中的操作能力可以从狗子身上泛化到人形机器人身上。

现在很多机器人厂商的机器人,更加擅长的是运动控制(而不是操作能力)。
我们希望能把模型操作能力赋能更多机器人本体,不管是人形还是别的。

Local-Manipulation创新成果

俗话说得好(不是),狗好,垃圾坏。

于是在北大校园里的各个角落,就出现了宇树机器狗B1如下的繁忙身影。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

在QuadWBG的加持下,这只狗子不仅可以在现实世界中,从不同位置对地面上的物体进行抓取。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

还可以很精确地在杂乱环境中抓住透明or镜面物体,然后放进身上的小背篓里。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

先来个前情提要——

该团队的任务是给定一个目标物体的位置,机器狗需要高效地接近目标物体并最终抓取目标物体。

机器人本体由四足机器狗、6自由度机械臂和平行抓夹组成。

机械臂末端安装了一个RGBD摄像头,成为了长颈狗子的眼睛,用来获取场景的RGB和红外信息。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

如果要把任务归类,这是一个非常典型的Local-Manipulation(运动——操作一体化)任务,它通常指智能体通过物理身体与环境进行局部交互,以实现特定任务的能力。

「上肢(机械臂)+足式机器人」的Local-Manipulation最早于2023年被提出,后来不断快速发展。

值得注意的是,针对足式机器人的Local-Manipulation,不能直接将抓取检测结果应用于机械臂运动规划,因为它忽略了本体和机械臂运动之间所需的协调。

而且由于动作维度不断拓宽,现实世界的物理交互又非常复杂,加上地形、视觉等,准确度和通用性仍然被限制了。

不过现在,端到端的RL已经提高了运动技能,推动了全身运动与操作端到端策略的发展,使机器狗子们能够执行需要运动并且与物体交互无缝协调的任务。

Just like在未名湖畔捡垃圾的小狗子。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

解密时刻!

北大校园里勤勤恳恳的小狗子,之所以能精确识别并抓取地上的各种垃圾,是因为QuadWBG借鉴了多种抓取检测技术的成功经验,通过将抓取姿态检测与运动规划相结合。

值得一提的是,这也是首次在移动抓取任务中引入通用定向可达性映射,提升机器人在六自由度基座下的全身操作泛化能力。

可以精准抓取透明物体,哪怕它们挤在一起:

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

还可以坚持不懈地疯狂捡拾,把各种材质的各种物体装进背篼里:

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

最后,结合RL与运动规划,在仿真环境中,无论物体的大小或几何复杂性如何,狗子在所有测试物体上均取得了显著更高的成功率,性能非常稳定。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

在实际操作中,狗子在14个不同物体实例、配置和环境中的全身抓取成功率达到了89%。

而在此之前的SOTA,仅在30%左右。

针对任务中较难的透明物体抓取,10次连续抓取也取得了80%的单次抓取成功率。

这是怎么做到的?

Jilong Wang解释道,其核心创新,在于模块化结构通用定向可达性映射

两大核心创新

通用定向可达性映射,即GROM,是QuadWBG的两大创新之一。

它是4个模块中“规划模块”的产物

因此,在对话过程中,Jilong Wang按照模块执行任务的逻辑和顺序来向量子位介绍了该工作的2大创新点。

至于为什么要做模块化,Jilong Wang给出的解释是:“因为现在端到端还不足以产生足够精确的结果,而模组能够让它产生很精确的全身数据,然后我们又把现实世界的数据提供给端到端的模型进行训练。”

也就是说,团队还是希望用模型自身的能力对现实世界进行感知,然后规划运动,而不是人工手动设计

最后的目标是实现端到端操作,这样也就“没有仿真环境和现实环境的gap了”,还很省钱。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

话不多说,先来看看模块化结构这个创新点——

QuadWBG是一个模块化通用四足全身抓取框架,该框架包含运动、感知、操作和规划四个模块。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

第一个,运动模块,见上图A。

它负责将本体感知信息(包含当前运动指令,关节位置与速度等)编码成隐式状态信息,并通过多层感知器(MLP)生成动作来满足当前运动指令的要求,从而实现鲁棒的移动能力。

第二个,感知模块,见上图B。

为了实现实时跟踪和精确的抓取姿态预测,感知模块利用ASGrasp接收红外图像和RGB图像作为输入,能够预测精确的深度信息。

随后,预测的深度点云被输入到GSNet中,从而生成更精确的六自由度抓取姿态。

第三个,操作模块,见上图C。

操作模块采用了一种运动规划方法,以解决全身RL策略在末端执行器控制中的不精确性问题。

该系统在2个不同的阶段运行:跟踪阶段和抓取阶段。

首先是跟踪阶段,团队将安装的摄像头运动限制在一个预定义的跟踪球体内,并使用可达性映射(RM,Reachability Map)来定义跟踪球体。

在该空间内,任意方向上都存在有效的反向运动学(IK,Inverse Kinematics)解。

切换机制基于RM和阈值可达性标准构建。

在每个规划步骤中,团队使用RM计算所选抓取姿态的可达性;一旦达到阈值,系统将切换到抓取阶段。

其运动规划器在线生成轨迹,使系统能够在向目标移动时适应小的意外运动。

第四个,规划模块,见上图D。

规划模块基于目标抓取位姿,利用通用定向可达性映射来生成移动指令。

现存的ORM(Oriented Reachability Map)能够高效地表示相对于TCP(Tool Center Point)坐标系的潜在基座位姿。

然而,ORM有其限制性——机器人基座必须在平坦表面上

对此,QuadWBG项目中的银河通用团队提出了GORM,它支持六自由度的机器人基座放置,对于世界坐标系中的任意目标位姿,均可通过RM的逆运算计算潜在的基座到世界的分布。

一旦定义了目标位姿,GORM将提供高质量潜在基座位姿的分布。

团队训练高层策略以最小化当前基座位姿与最近可行位姿之间的距离,以鼓励机器人移动到基座位姿候选位置。

Jilong Wang进一步解释了这一创新性贡献:

它本身的意义就是在6D空间中给任意位姿,GORM能通过解析的方式告诉你,基座出现在哪个范围、哪个分布是最利于去抓取物体的。

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

△蓝色箭头是最佳位姿的向量表示

由于GORM在目标位姿坐标系中定义,因此只需计算一次,使其非常高效且非常适合并行训练。

One More Thing

然鹅,由于每次抓取前都要计算出最佳位姿,这就导致了目前的一个局限性

即便紧挨在一起的两三个垃圾,机器狗也不能通过一次识别、一次移动就连续抓取n个

它必须得经历“识别——移动到最佳位姿——抓取——再识别——移动到新的最佳位姿——抓取”这样的过程。

具体表现就像下面这张图中这样:

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

捡完一个垃圾后,机器狗必须得退两步,重新识别,然后再根据新规划的最佳位姿,靠近垃圾,然后抓取。

不过!

Jilong Wang表示,团队正在想办法解决这个问题,希望实现狗子不需要退回去,看一次就能把运动范围内的垃圾都捡起来。

减少狗子的工作量,提高效率。

毕竟保护动物,人人有责——哪怕是机器动物(doge)。

参考链接:

[1]https://quadwbg.github.io/

[2]https://arxiv.org/abs/2411.06782

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy