3500元,人形机器人1:1复刻人类动作 | 上海AI Lab开源新成果
改进了强化学习框架
《环太平洋》名场面之“用真人操纵机甲”,如今照进现实了。

话不多说,请看VCR:

原来,这是上海AI Lab最新推出的人形机器人“驾驶舱”——HOMIE(Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit) 。
一副机械臂外骨骼、一双动作感应手套,以及一块三轴脚踏板,人们就能对双足人形机器人全身进行精准遥操作了。
这也意味着,无需昂贵动作捕捉设备,人形机器人也能1:1复刻人类动作。

根据研究团队的说法,HOMIE主打一个“快准省”:
- 快:与传统最快VR手柄采集方案相比,速度还要快200%,任务完成时间缩短50%;
- 准:解决了传统人形机器人遥操作面临的全身协调控制难(需同时控制移动与操作)和高精度指令获取难(依赖昂贵动捕设备或视觉算法)两大难题,支持其完成搬运、协作、开门等复杂移动操作任务;
- 省:整套硬件仅约3500元人民币,而且HOMIE还开源了。
该系统由强化学习驱动的运动控制框架和低成本同构外骨骼硬件组成,首次实现了单一操作者对双足人形机器人全身的精准遥操作。

由强化学习驱动的运动控制框架
这第一步,我们先来拆个箱,详细康康上面提到的“三件套”。
三大核心组件
一直以来,传统人形机器人遥操作面临两大难题:
- 全身协调控制难:需同时控制移动与操作
- 高精度指令获取难:依赖昂贵动捕设备或视觉算法
而HOMIE的突破在于将“人机同构”理念发挥到极致,其驾驶舱包含三大核心组件:
1、同构机械臂外骨骼:7自由度机械臂与机器人关节一一对应,操作者只需像控制自己手臂一样运动,即可精准映射机器人动作,误差小于0.09度,频率高达260Hz。
2、动作感应手套:15自由度传感器捕捉手指细微动作,霍尔效应磁感技术实现低成本高精度(200人民币/只),可适配多种灵巧手型号。
3、三轴脚踏板:通过踏板控制机器人移动速度、转向与下蹲高度,支持“踩油门式”直觉操作。

挨个来看的话。
同构外骨骼机械臂是基于Unitree G1与Fourier GR-1机器人形态定制,7自由度关节与机器人完全对应。
它采用Dynamixel伺服电机(精度0.09°),通过URDF模型对齐坐标系,确保操作者动作与机器人运动1:1映射。
通常情况下,它被固定于操作者背部与手掌,覆盖机器人绝大部分工作空间且不限制人体活动。

至于200元/只的动作感应手套,它每根手指配备3组霍尔传感器,捕捉指尖弯曲、指节偏转等15自由度动作。
同时,磁铁随关节旋转改变磁场强度,通过微控制器实时转换为关节角度,支持即插即用适配多种灵巧手。

而脚下踩的三轴脚踏板,可以看到线性速度、转向角速度、下蹲高度分别由三个踏板控制,压力信号经高精度电位器转换。
对了,模式切换按钮支持前进/后退、左转/右转快速切换,操作逻辑类似汽车油门。

以上设计能够让操作者如同“穿戴”机器人,彻底摆脱传统VR手柄的延迟与误差。
实验结果显示,HOMIE的指令采集速度比最快VR方案快200%,任务完成时间缩短50%。尤其当操作者伸手抓取物体时,机器人几乎同步响应。
而且,背后团队特意提醒:
由于外骨骼基于同构概念设计,仅手臂部分需要根据不同机器人的手臂设计进行微调;不过因为现行人形机器人手臂设计基本是7自由度的范式,因此这个调整并不会很大。
手套和踏板部分对所有市面上的人形机器人都是通用的。
其次,我们来重点谈谈HOMIE背后所采用的强化学习。
在强化学习框架中引入三大创新技术
现有的强化学习方法无法让人形机器人稳定、快速地下蹲到指定位置,同时现有方法均依赖于大量数据和运动先验来实验机器人运动对上身姿势的适配。
前者很大程度限制了机器人的可操作空间,后者则提高了机器人训练的成本。
为了最大程度拓展机器人的操作空间,并保证任何机器人都能快速学会在任何上身姿势下保持平衡,HOMIE在其强化学习框架中引入三大创新技术:

1、上半身姿势课程学习
传统方法直接随机采样上身关节角度,训练初期机器人频繁失衡,导致训练缓慢甚至无法训练。而HOMIE引入了设计渐进式课程学习的方法,使得训练过程中机器人上肢动作的采样难度更平滑地提升:

- 初始阶段限制上身动作幅度(动作比率ra=0),此时大概率上身姿势保持默认姿势,更容易训得稳定步态;
- 当速度跟踪奖励达标后,逐步扩大ra至1,最终采样分布变为纯随机分布(0,1);
- 采用特殊概率分布平滑过渡,避免动作突变引发的失衡。
2、高度跟踪奖励函数
为拓展机器人操作空间(如从地面捡物或高处放置),HOMIE在通用的追踪高度的奖励函数基础上引入了一个新的辅助函数:

该函数通过膝关节角度与目标高度的动态耦合,引导机器人自主调整蹲姿。
训练中,每次对命令的采样均保证有1/3环境专门学习下蹲,2/3环境学习站立行走,同一个环境在两种模式下不断切换,最终可以同时学会稳定的行走和下蹲。
3、对称性增强技术
为了充分利用人形机器人的左右对称性,避免人形机器人左右不对称动作易导致失衡,HOMIE在数据采集与训练中引入镜像翻转:
- 将观测状态(关节角度、速度等)沿x-z平面镜像,生成对称样本。
- 在策略网络优化时,额外计算对称动作与价值的均方误差损失,强制网络学习对称行为。
已通过从仿真到现实的全面验证
研究人员针对HOMIE强化学习框架中提出的三个新的方法分别进行了蒸馏实验,将得到的结果在几个关键指标上进行测试,最终发现:
1)上半身姿势课程学习可以充分帮助机器人更快的学会在各种连续变化的上身姿势下保持平衡并稳定行走,并且HOMIE的课程学习方式确实比直接利用随机概率进行课程学习更加优越;
2)高度跟踪奖励函数的提出相比于只用高度追踪奖励函数,能够让机器人更好、更快的学会稳定的下蹲,而简单粗暴的调大高度追踪奖励的奖励函数比例反而会让机器人的学习更加困难;
3)对称性增强技术的使用不止让训得的策略更加具有对称性,更是直接大幅提高了机器人训练的速度,从而提高了数据效率。

上述结论都表明,HOMIE的训练框架很好的帮助机器人更好的学习完成移动操作任务,可以使人们获得更好的移动操作底层控制策略。
而且,HOMIE不止能应用于Unitree G1,研究人员还使用同样的框架训练了傅利叶GR-1机器人。
结果证明,即使G1和GR-1在结构和尺寸上差别很大,HOMIE的强化学习框架依然能够让GR-1快速学到稳定的行走和下蹲。

与此同时,研究人员对HOMIE的硬件系统进行了系统性的测试,并发现得益于舵机和霍尔传感器的使用,这套低成本的硬件系统具有极高的响应频率和姿势获取精度。
同时由于同构的设计,系统不需要额外进行姿势估计和求解,在无需GPU和SoC的前提下依然可以达到远超别的方法的姿势获取频率。

此外,研究团队利用HOMIE在不同环境下完成了丰富的移动操作任务。
包括从低货架拿货物到高货架、两人分别用HOMIE一起完成物体在两台机器人之间的传递、货物搬运、推人前进、开微波炉、捡水平、捧花等复杂的动作,这些任务充分体现了HOMIE遥操人形机器人完成任务的多样性。
任务本身对机器人全身协调能力的高要求也证明了利用HOMIE框架训练得到的策略的稳定性。

为了展示使用HOMIE的硬件系统进行桌面遥操任务的优越性,研究人员还在4项桌面任务中,用HOMIE和VR方案(OpenTelevision)分别完成四个不同的桌面任务。
最终发现,HOMIE在完成速度上具有显著优势,尤其在需要精确径向移动的任务中完成速度超过VR方案的2倍。

同时,研究人员还初步尝试了用HOMIE采集数据训练模仿学习算法的可能性。
通过在下蹲捡苹果和站立捡苹果两个任务上分别采集50条数据,并利用Seer模型进行训练,从而部署到真实机器人上,最终取得了超过70%的成功率。

概括而言,HOMIE的价值不仅在于技术突破,更在于其开源与低成本特性(整套硬件仅约3500人民币)。
目前主流的基于VR的方法是OpenTelevision,是基于Apple的VisionPro进行操作,目前一台最基本的256G的Vision Pro国内售价约3万人民币,因此其成本只有VisionPro的约12%。
它让人形机器人摆脱动捕依赖,像智能手机一样通过“直觉化驾驶舱”走入仓库等复杂场景。
正如团队所言:
或许不久的将来,每个机器人都会拥有自己的“神经连接驾驶舱”,而HOMIE正是这条征途上的第一块里程碑。
鉴于已经开源,动手能力强的小伙伴已经跃跃欲试啰~

论文链接:
https://arxiv.org/abs/2502.13013
项目主页:
https://homietele.github.io/
代码申请:
https://forms.gle/NSLiABo3bPWN89wZ8
