Deep Q-Learning with Recurrent Neural Networks

2020-11-11 17:03:29 阅读：251 来源： 互联网

标签：DRQN 游戏 Recurrent Deep Learning DQN Networks RNN

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　事实证明，深度强化学习模型可以成功地学习控制策略图像输入。但是，他们一直在努力学习需要长期信息的学习政策。递归神经网络体系结构已用于处理数据点之间的长期依赖性的任务中。我们研究了这些体系结构，以克服因长期依赖而学习策略带来的困难。

1 Introduction

　　强化学习的最新进展已导致在各种游戏（例如Atari 2600游戏）上达到人文水平或更高的性能。但是，训练这些网络可能会花费很长时间，并且现有技术[0]中介绍的技术在需要长期计划的几款游戏中效果不佳。
　　深度Q网络的局限性在于，它们从单个先前状态中学习映射，该状态由少量游戏屏幕组成。在实践中，DQN使用包含最后四个游戏屏幕的输入进行训练。因此，DQN在要求代理记住四个屏幕之前的信息的游戏中表现较差。从图1中DQN在，接近或低于人类水平[0]时表现不佳的游戏类型可以明显看出这一点。
　　我们探讨了深度递归Q网络（DRQN），递归神经网络（RNN）[6]和类似于[5] 1的深度Q网络（DQN）的组合。概念是RNN 将能够保留更长时间的状态信息，并将其纳入预测更好的Q值，从而在需要长期计划的游戏中表现更好。

　　除了香草RNN架构外，我们还研究了增强型RNN架构，例如注意力RNN。 RNN在翻译任务中的最新成就[2，3]已显示出希望。使用注意力的优点在于，它使DRQN可以专注于特定的先前状态，该状态对于预测当前状态下的操作而言非常重要。我们研究增强DRQN的注意力并评估其有效性。

¹ 代码参见https://github.com/dillonalaird/deep-rl-tensorflow

2 Related Work

3 Deep Q-Learning

4 Deep Recurrent Q-Learning

5 Experiments

Conclusion

Appendix A:

标签：DRQN,游戏,Recurrent,Deep,Learning,DQN,Networks,RNN
来源： https://www.cnblogs.com/lucifer1997/p/13959532.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Deep Q-Learning with Recurrent Neural Networks