立春 | 机器人运动会

547次阅读
没有评论

立春 | 机器人运动会

第三十三届夏季奥林匹克运动会即将在法国巴黎举办,各位读者们是否已经准备好了去参赛夺冠呢?就算没有机会参赛也无妨,我们可以想象一场更有意思的奥林匹克运动会。在这场运动会中,参赛选手除了人类,还有一个特殊的群体:机器人。更准确地说,这场运动会将是人工智能对人类各领域顶尖选手的一场挑战。让我们来一同认识一下这些走在人工智能研究前沿的“选手”们,看看是哪些技术赋予了它们挑战人类的底气。

立春 | 机器人运动会

田径:百米跑的 Cassie

首先我们来到了竞争最为激烈的田径赛场。在众多的田径比赛中,100米赛跑往往格外引人注目,因为其冠军常被称为世界上最快的人。截止目前,世界上最快的人是牙买加的运动员博尔特,他完成100米的跑步只需要9.58秒[1]。与他对决的是来自俄勒冈州立大学的 Cassie[2],它是一款双足机器人,于2022年5月获得了双足机器人100米跑的24.73秒的世界纪录。显然,博尔特完胜 Cassie,不过你是否好奇,Cassie 是如何跑步的呢?

立春 | 机器人运动会

双足机器人 Cassie 百米跑进25秒创世界纪录

Cassie 的所有关节都由一个长短期记忆神经网络(LSTM)[3]底层控制器所控制,要想让这套神经网络学会控制关节使得 Cassie 真正跑起来,还需要让它“学习”跑步。像婴儿在试错中学习行走一样,俄勒冈州立大学 Dynamic Robotics Lab 的研究人员首先在模拟器内搭建了 Cassie 和运动场的模型,让它在无人监督的情况下通过不断尝试自己学会奔跑,并强迫它在一周之内用模拟器完成了一整年的训练量。这种通过试错来自主学习的方法,即强化学习,是目前许多机器人学前沿研究中最基础也最常见的方法。当然,模拟器里的训练和实际跑步肯定还是有一定的差距的,就好像玩过模拟飞行并不意味着学会开飞机一样,Cassie 在现实世界的表现也由于摩擦力变化、不确定的风速等难以模拟的因素比它在模拟器中的最好成绩要差上不少,这也是机器人强化学习领域中一个很致命的问题:模拟-现实差距(Sim2Real Gap)[4]。虽然在这次对决中博尔特完胜 Cassie,但我们对机器人田径队还是可以抱有期待的,毕竟 Cassie 是第一个敢于挑战人类的机器人跑步运动员。在未来,随着工艺和算法的进步,模拟-现实的差距被弥合,相信机器人有更大机会在田径比赛中夺冠。

立春 | 机器人运动会

FPV:精准控制无人机的 Swift

下一场比赛是速度与灵巧并重的一项比赛:穿越机竞速(FPV)。参赛选手需要戴上一个显示头盔,从第一人称的视角操控现实中的无人机依次通过所有的门,完成指定的圈数即可完成比赛。这项比赛兴起于2011年的德国[5]。然而,谁都没想到,在2023年,机器人选手就打败了人类冠军。事情发生在瑞士的苏黎世大学,研究人员们提出了一个完全自主的无人机系统:Swift。该系统仅仅依赖机载的加速度计和视觉信息,便击败了三名人类冠军。Swift 是如何做到的呢?

立春 | 机器人运动会立春 | 机器人运动会

上图为穿越机比赛中 Swift(蓝色)和人类飞手(红色)的轨迹,下图为 Swift 的系统结构

Swift 和 Cassie 类似,是由一个神经网络控制的,并通过强化学习算法在模拟器里进行了长时间的训练。为了解决难倒了 Cassie 的模拟-现实差距的问题,Swift 利用了一种叫动态残差的方法使得模拟器能够更好地模拟真实世界。这种方法的核心在于用概率方法去拟合现实世界和模拟世界的动力学残差(dynamics residual),比如一些难以模拟的空气动力学作用。具体而言,研究人员会带着在模拟器里训练好的 Swift 进入真实世界一展身手,并用高精度的外部动作捕捉设备测量 Swift 在现实世界中的飞行轨迹,与模拟器里同样设定下的飞行轨迹做差,剩下的就是影响 Swift 表现的动力学残差。随后的训练只需要在模拟器内进行,将模拟结果加上建模好的残差即可让模拟更加贴近真实世界,使得 Swift 接受更加逼真的训练,在实际比赛中获得更大的优势[6]。

在最终的对决中,Swift 以15:10的成绩击败了人类的冠军,为机器人拿下一块奖牌。当然,在小编看来,Swift 有一点作弊的嫌疑,毕竟如论文所说,Swift 依靠了机载的加速度计,而人类飞手可没有这个特权,只能凭借视觉信息来估算飞机的位姿。

立春 | 机器人运动会

IMO:会解题的 AlphaGeometry

赢得上面的这些赛事的关键都在于速度和技巧,那如果是项完全依靠智力的比赛,机器人还有获胜的可能吗?答案是肯定的。

在所有奥林匹克赛事中,世界奥林匹克数学竞赛(IMO)以其所要求的丰富的数学背景,强大的解题技巧,成为了全世界最杰出的高中生的智力竞技场。就在几天前的2024年1月17日,这一人类理性思维的殿堂闯入了一位不速之客:由谷歌 DeepMind 研发的 AlphaGeometry[7],一个专门解决 IMO 级别几何问题的人工智能模型。在一场由30道 IMO 几何题组成的测试中,AlphaGeometry 一举解决了其中的25道问题,超过了平均解决22.9道题的银牌水平,接近了平均解决25.9道题的金牌水平。在此之前,解决几何题的最有效的方法为中国数学家吴文俊的吴方法[8],该方法在这场测试中解决了其中的10道问题。AlphaGeometry 是如何获得这惊人的能力的呢?实际上,AlphaGeometry 基于神经符号主义(Neuro-symbolic)[9]的框架,由一套大语言模型提供快而不一定准确的“直觉”,再由另一套符号逻辑系统去完成慢而准确的验证。奥林匹克几何问题通常需要添加新的几何结构才能解决,例如辅助点、辅助线、辅助圆,而 AlphaGeometry 的大语言模型则可以从无数种可能性中预测添加哪些新结构最有用,这些线索有助于填补符号逻辑系统的空白,并允许符号逻辑系统对几何关系进行进一步推导并接近解决方案。这一整套系统同样需要经过长时间的训练才能达到 IMO 冠军级别的水平,谷歌的研究人员为此设计了一种自动出题的机制,为 AlphaGeometry 生成了数百万道几何题练手。由于 AlphaGeometry 采用了和人类类似的做辅助线帮助证明的途径,该系统相比其他自动证明系统自然获得了另一个优势:可以提供人类容易理解的证明过程,而非冗长的解析几何证明。

立春 | 机器人运动会

AlphaGeometry 所采用的由语言模型添加辅助线并由符号逻辑系统完成证明的流程

立春 | 机器人运动会

结  语

机器人队伍来势汹汹,贪婪地渴望挑战人类体力与智力的极限。除了田径赛跑、穿越机、奥数,它们的身影已经活跃在诸多曾经由人类主宰的赛场。早在2016年,AlphaGo 击败围棋冠军李世石的消息登上了头条[10],2019年,谷歌 Deep Mind 的人工智能 AlphaStar 在星际争霸比赛中打败了人类冠军[11],同年十月 OpenAI 的机器人用机械手完成了单手解魔方的创举[12]。也许一场比赛的胜负不足为奇,但在一次次的对决中,一个时代正悄然经历着风云变幻。站在历史节点的人类,你听到它那急不可耐,势不可挡的脚步声了吗?

参考文献

[1] https://zh.wikipedia.org/zh-cn/田径

[2] https://www.guinnessworldrecords.com/world-records/629600-fastest-100-m-by-a-bipedal-robot

[3] Graves, A., & Graves, A. (2012). Long short-term memory. Supervised sequence labelling with recurrent neural networks, 37-45.

[4] Crowley, D., et al. Optimizing bipedal locomotion for the 100m dash with comparison to human running. In ICRA 2023.

[5] https://en.wikipedia.org/wiki/Drone_racing

[6] Kaufmann, E., et al. (2023). Champion-level drone racing using deep reinforcement learning. Nature, 620(7976), 982-987.

[7] Trinh, T. H., et al. (2024). Solving olympiad geometry without human demonstrations. Nature, 625(7995), 476-482.

[8] Wen-Tsun, W. (1986). Basic principles of mechanical theorem proving in elementary geometries. Journal of automated Reasoning, 2, 221-252.

[9] Hitzler, P., & Sarker, M. K. (Eds.). (2022). Neuro-symbolic artificial intelligence: The state of the art.

[10] Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Google Blog, 27.

[11] Vinyals, O., et al. (2019). Alphastar: Mastering the real-time strategy game starcraft ii. DeepMind blog, 2, 20.

[12] Akkaya, I., et al. (2019). Solving rubik’s cube with a robot hand. arXiv preprint arXiv:1910.07113.

立春 | 机器人运动会

文 | 安博施

图 | 除标注外,源自网络

立春 | 机器人运动会

—   版权声明  —

本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

立春 | 机器人运动会

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy