CROP: Towards Distributional-Shift Robust Reinforcement Learning using
Compact Reshaped Observation Processing
解决问题:该论文试图解决强化学习中的分布偏移问题,即在有限的训练数据下实现模型的泛化能力。当前的强化学习方法在训练数据上应用数据增强技术以提高训练数据的多样性,但这种方法会阻碍策略优化。
关键思路:为了提高数据效率和泛化能力,该论文提出了一种称为CROP的方法,用于减少用于策略优化的状态信息。通过提供仅包含关键信息的适当观察,可以避免过度拟合到特定的训练环境,并提高对未知环境的泛化能力。
其他亮点:该论文在分布偏移的安全网格世界中进行了实证研究,并在两个不同大小的程序生成迷宫中进行了基准比较。该论文提出了三种可以应用于完全可观察的观察和动作空间的CROP,并提供了方法学基础。
关于作者:Philipp Altmann、Fabian Ritz、Leonard Feuchtinger、Jonas Nüßlein和Claudia Linnhoff-Popien分别来自德国慕尼黑工业大学和慕尼黑大学。他们的代表作包括“Towards Robust Industrial Robot Programming through Reinforcement Learning”和“Adaptive User Modeling for Personalized News Recommendation”.
相关研究:近期的相关研究包括“Distributional Reinforcement Learning with Quantile Regression”(Marc G. Bellemare等,Google Brain)和“Reinforcement Learning with Unsupervised Auxiliary Tasks”(Max Jaderberg等,DeepMind)。
论文摘要:安全应用强化学习需要从有限的训练数据中推广到未知情境。然而,在不同情况下完成任务是强化学习中的一个关键挑战。目前最先进的泛化方法采用数据增强技术来增加训练数据的多样性。尽管这可以防止过度拟合到训练环境,但会阻碍策略优化。设计一个合适的观测,只包含关键信息,本身就是一个具有挑战性的任务。为了提高数据效率和泛化能力,我们提出了紧凑重塑观测处理(CROP),以减少用于策略优化的状态信息。通过提供仅相关信息,可以避免过度拟合到特定的训练布局,并提高对未知环境的泛化能力。我们制定了三个CROP,可应用于完全可观察的观测和行动空间,并提供了方法基础。我们在一个分布式移位安全网格世界中实证展示了CROP的改进。我们还在两个不同大小的程序生成的迷宫中提供了完全可观察性和数据增强的基准比较。