针对POMDPs和可解释代理的端到端策略梯度方法

725次阅读
没有评论

End-to-End Policy Gradient Method for POMDPs and Explainable Agents

解决问题:本篇论文旨在解决部分可观察马尔可夫决策过程(POMDP)中的隐状态估计问题,并提出了一种端到端训练的强化学习算法。此外,论文还提出了一种可解释的决策制定方法,使得代理的行为对人类可解释。

关键思路:本文提出的算法通过端到端训练来估计隐状态,并将估计结果可视化为状态转移图。相比于当前领域的研究,本文的新颖之处在于提出了一种可解释的决策制定方法,使得代理的行为对人类可解释。

其他亮点:本文的实验结果表明,所提出的算法可以解决简单的POMDP问题,并且可视化结果使得代理的行为对人类可解释。论文未提及是否有开源代码。

关于作者:Soichiro Nishimori、Sotetsu Koyamada和Shin Ishii分别来自东京大学。他们之前的代表作未在论文中提到。

相关研究:最近的相关研究包括“Learning Latent State Representations for Partially Observable Control Tasks”(Johannes Kirschner等,Max Planck Institute for Intelligent Systems)、“Deep Reinforcement Learning with POMDPs”(Junhyuk Oh等,MIT)等。

论文摘要:这篇文章的主题是“端到端策略梯度方法用于POMDP和可解释的智能体”。现实世界中的决策问题通常是部分可观察的,许多问题可以被定义为部分可观察的马尔可夫决策过程(POMDP)。当我们将强化学习(RL)算法应用于POMDP时,对隐藏状态的合理估计可以帮助解决问题。此外,考虑到它们在自动驾驶汽车等实际任务中的应用,可解释的决策是可取的。我们提出了一种RL算法,通过端到端训练来估计隐藏状态,并将估计可视化为状态转移图。实验结果表明,所提出的算法可以解决简单的POMDP问题,并且可视化使智能体的行为对人类可解释。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy