A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning
解决问题:本文旨在解决强化学习中控制问题,其中没有可用的模型信息。具体来说,本文提出了两个策略牛顿算法,它们都采用了立方正则化方法,以避免陷入鞍点。
关键思路:本文提出的算法采用样本轨迹估计价值函数的梯度和海森矩阵,并通过立方正则化方法来避免陷入鞍点。相比当前领域的研究,本文提出的算法在样本复杂度上有所提高,能够更好地解决控制问题。
其他亮点:本文在实验中使用了标准的强化学习基准测试环境,并在CartPole和Acrobot两个任务中进行了测试。此外,本文还提出了两种不同的算法,并证明了它们的收敛性。作者还提供了开源代码,方便其他研究者进行复现和扩展。
关于作者:Mizhaan Prajit Maniyar、Akash Mondal、Prashanth L. A.和Shalabh Bhatnagar均来自印度班加罗尔的印度科学院。他们在强化学习领域都有较为丰富的研究经验。其中,Shalabh Bhatnagar曾在2012年发表过题为“Stochastic Approximation Algorithms with Controlled Markov Chain Sampling”的论文,该论文提出了一种新的随机逼近算法,被广泛应用于强化学习领域。
相关研究:最近的相关研究包括:
- “Sample Efficient Actor-Critic with Experience Replay”,作者为Scott Fujimoto、Herke van Hoof和David Meger,来自加拿大麦吉尔大学和蒙特利尔大学。
- “Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables”,作者为Tianhe Yu、Chelsea Finn、Tianhao Zhang和Pieter Abbeel,来自加州大学伯克利分校和斯坦福大学。
论文摘要:本文讨论了强化学习(RL)中的控制问题,其中没有可用的模型信息。策略梯度算法是解决此问题的流行方法,通常被证明会收敛到值函数的稳定点。本文提出了两种策略牛顿算法,其中包含了立方正则化。两种算法均采用似然比方法,使用样本轨迹形成值函数梯度和海森矩阵的估计。第一种算法需要在每次迭代中精确解决立方正则化问题,而第二种算法则采用高效的梯度下降近似立方正则化问题。我们证明了我们提出的算法收敛到值函数的二阶稳定点(SOSP),从而避免了鞍点的陷阱。特别地,我们的算法样本复杂度为$O(epsilon^{-3.5})$,这比最先进的样本复杂度$O(epsilon^{-4.5})$有所提高。