GitHub地址:https://github.com/PacktPublishing/Hands-On-Reinforcement-Learning-with-Python
该文章是针对Hado van Hasselt于2010年提出的Double Q-learning算法的进一步拓展,是结合了DQN网络后,提出的关于DQN的Double Q-learning算法。该算法主要目的是修正DQN中max项所产生的过高估计问题,所谓过高估计,在前面的博客Issues in Using Function Approximation for Reinforcement
这个是平时在实验室讲reinforcement learning 的时候用到PPT, 交期末作业、汇报都是一直用的这个,觉得比较不错,保存一下,也为分享,最早该PPT源于师弟汇报所做。