FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing
解决问题:
本论文旨在通过深度强化学习和自主练习,使自动驾驶小型遥控车通过视觉观察实现高速驾驶。论文的目标是解决无需人类干预、不需要仿真或专家演示的情况下,如何在现实世界中训练自动驾驶车辆的问题。
关键思路:
论文的关键思路是将其他机器人在其他环境中导航的大型数据集作为强化学习策略和价值函数的表示进行初始化。然后,使用单个低速用户提供的演示来确定所需的驾驶路线,提取一组导航检查点,并自主练习通过这些检查点的驾驶。在适当的初始化和算法选择下,我们的系统可以在不到20分钟的在线训练时间内学习通过各种赛道驾驶,其结果表现出了紧急驾驶技能,例如在转弯时的制动和加速的时机以及避免妨碍机器人运动的区域。
其他亮点:
论文的实验设计使用了自主练习的方式,无需人类干预,也不需要仿真或专家演示。论文还提出了一种新的初始化方法,即使用其他机器人在其他环境中导航的大型数据集作为强化学习策略和价值函数的表示进行初始化。本文还提出了一种新颖的在线强化学习方法,使用单个低速用户提供的演示来确定所需的驾驶路线,提取一组导航检查点,并自主练习通过这些检查点的驾驶。本文未提供开源代码。值得进一步研究的工作是如何将该方法扩展到更大的车辆和更复杂的场景中。
关于作者:
本文的主要作者包括Kyle Stachowicz、Dhruv Shah、Arjun Bhorkar、Ilya Kostrikov和Sergey Levine。他们分别来自伯克利加州大学、加州大学伯克利分校、斯坦福大学和莫斯科州立大学。Sergey Levine是机器人学和深度学习领域的知名专家,他的代表作包括“End-to-End Training of Deep Visuomotor Policies”和“Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection”。
相关研究:
近期其他相关的研究包括:
- “Learning to Drive Smoothly in Minutes”,作者为M. Bansal、A. Krizhevsky和A. Ogale,来自加州大学伯克利分校和谷歌AI。
- “End-to-End Learning of Driving Models from Large-Scale Video Datasets”,作者为M. Kuderer、C. Plagemann和W. Burgard,来自德国弗莱堡大学。
- “End-to-End Training of Deep Visuomotor Policies”,作者为S. Levine、P. Pastor、A. Krizhevsky和D. Quillen,来自伯克利加州大学和谷歌AI。
论文摘要:本文介绍了一个系统,该系统通过强化学习(RL)和自主练习,使自主小型RC汽车能够从视觉观察中积极驾驶。我们的系统名为FastRLAP(更快的圈速),在现实世界中自主训练,不需要人类干预,也不需要任何模拟或专家演示。我们的系统整合了许多重要组件,使这一切成为可能:我们从大量其他机器人在其他环境中导航(以低速运行)的先前数据集中初始化RL策略和价值函数的表示,提供了一个与导航相关的表示。从这里开始,一个样本高效的在线RL方法使用单个低速用户提供的演示来确定所需的驾驶路线,提取一组导航检查点,并自动重置碰撞或失败时的驾驶练习。也许令人惊讶的是,我们发现在适当的初始化和算法选择下,我们的系统可以在不到20分钟的在线培训中学习驾驶各种赛道。所得到的策略表现出新兴的积极驾驶技能,如在转弯处的制动和加速的时机,避免妨碍机器人运动的区域,在培训过程中逐渐接近使用类似的第一人称界面的人类驾驶员的表现水平。