ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【5分钟 Paper】Prioritized Experience Replay

2020-02-28 21:37:10  阅读:322  来源: 互联网

标签:采样 frac Paper Experience 参考文献 Replay rank error TD


  • 论文题目:Prioritized Experience Replay

在这里插入图片描述

所解决的问题?

  Experience replay能够让强化学习去考虑过去的一些经验,在【1】这篇文章之前通常采用随机采样的方式在记忆库中采样。但是有一些记忆比较关键,因此随机采样的方式就不太好。作者提出了一种prioritizing experience的方式,来提高学习的效率。

  • 参考文献【1】:Lin, Long-Ji. Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine learning, 8(3-4):293–321, 1992.

背景

  之前的做法像DQN基本上都是从记忆库中sample一些experience data出来之后给model update一次之后就被丢弃了。但是这里会有些问题,就是如果采样方式比较好的话一来会切断数据之间的相关性,二来,对于一些相似度高的数据可以少采样一点,而很少见的数据可以多拿来更新几次。

  作者从以下文献获得灵感:

  Experiences with high magnitude TD error also appear to be replayed more often(Singer & Frank, 2009; McNamara et al., 2014).

  • 参考文献1:Singer, Annabelle C and Frank, Loren M. Rewarded outcomes enhance reactivation of experience in the hippocampus (海马体). Neuron, 64(6):910–921, 2009
  • 参考文献2:McNamara, Colin G, Tejero-Cantero, ´Alvaro, Trouche, St´ephanie, Campo-Urriza, Natalia, and Dupret, David. Dopaminergic neurons promote hippocampal reactivation and spatial memory persistence. Nature neuroscience, 2014.

  The TD error provides one way to measure these priorities (van Seijen & Sutton, 2013). 作者将这种方法用于model-free的强化学习中,而非model-base的方法中。

  • van Seijen, Harm and Sutton, Richard. Planning by prioritized sweeping with small backups. In Proceedings of The 30th International Conference on Machine Learning, pp. 361–369, 2013.

  做replay memory之前我们需要明确两个点。选择什么样的experiences去存储,选择什么样的experiencereplay,怎么实现?作者只解决后面这个问题。

所采用的方法?

   prioritized replay 中一个核心的问题就是如何来选择这个transition (s,a,r,s'),作者采用TD-error来衡量transition的重要性(how far the value is from its next-step bootstrap estimate (Andre et al., 1998))。

  • 参考文献1:Andre, David, Friedman, Nir, and Parr, Ronald. Generalized prioritized sweeping. In Advances in Neural Information Processing Systems. Citeseer, 1998.

  greedy TD-error prioritization会产生一些问题:1. TD-error的样本可能永远不会被采样到;2. 整个算法对噪声会非常敏感;3. TD-error大的样本很容易使得神经网络过拟合(因为一直采样TD-error大的样本)。

  • stochastic sampling method

  基于以上几点,作者提出stochastic sampling method,介于pure greedy prioritizationuniform random sampling之间的一种采样方法。the probability of sampling transition iii as:

P(i)=piαkpkα P(i) = \frac{p_{i}^{\alpha}}{\sum_{k}p_{k}^{\alpha}} P(i)=∑k​pkα​piα​​

  其中pi>0p_{i} >0pi​>0, is the priority of transition iii,指数α\alphaα determines how much prioritization is used,当α=0\alpha =0α=0时,就是随机选(uniform case)。

  对于上述的P(i)P(i)P(i),作者提出了两个变种:

  1. proportional prioritizationpi=δi+εp_{i}=|\delta_{i}| + \varepsilonpi​=∣δi​∣+ε,δi\delta{i}δi表示TD-errorε\varepsilonε表示一个很小的正数。这么做的目的是希望TD-error0的样本也能被采样得到。
  2. rank-based prioritizationpi=1rank(i)p_{i} = \frac{1}{\text{rank(i)}}pi​=rank(i)1​,其中rank(i)\text{rank(i)}rank(i)表示依据δi|\delta_{i}|∣δi​∣的排序结果。In this case, PPP becomes a power-law distribution with exponent α\alphaα.

  对于上述算法的实现细节:如下所示:

算法细节描述

  • For the rank-based variant:我们可以用一个分段线性函数来近似累积密度函数,kkk段的概率是相等的。分段边界可以预先计算出来(因为只与NNN和α\alphaα有关系)。在运行时,我们选择一个片段,然后在这个片段中的所有transition中均匀地采样。选kkk为minibatch的大小,从每一个片段中选出一个transition-这是一种分层抽样,可以平衡minibatch。意思就是先划分片段,然后从里面随机抽。
    For the rank-based variant细节

  • Proportional prioritization

Proportional prioritization

  • Annealing the bias(为减少bias)

  随机更新对期望值的估计依赖于与预期相同的分布相对应的更新。优先重放机制引入了bias,它以一种不受控制的方式改变了这个分布,因此改变收敛结果(即使策略和状态分布是固定的)。通过引入importance-sample (IS) weights来弥补:

wi=(1N1P(i))β w_{i} = (\frac{1}{N} \cdot \frac{1}{P(i)})^{\beta} wi​=(N1​⋅P(i)1​)β

  其中1N\frac{1}{N}N1​表示样本最开始服从的分布,1P(i)\frac{1}{P(i)}P(i)1​表示的是样本引入优先级之后的分布。但是我们就是要做有偏估计,所以引入β\betaβ系数控制有偏和无偏的量,一旦有偏估计之后算法收敛性无法保证,因此可以随着迭代次数增加β\betaβ慢慢变成1。

  算法伪代码如下图所示:

Prioritized Experience Replay算法流程

取得的效果?

实验效果

  可以看出,rank-based的方法和proportional的方法都能加速收敛。

所出版信息?作者信息?

  这篇文章是ICLR2016上面的一篇文章。第一作者Tom SchaulGoogle DeepMindSenior research ScientistPostDoc at New York University from 2011-2013, PhD Student at IDSIA from 2007-2011。

在这里插入图片描述

参考链接

  • https://zhuanlan.zhihu.com/p/38358183

扩展阅读

  1. Some transitions may not be immediately useful to the agent,but might become so when the agent competence increases (Schmidhuber,1991).
  • 参考文献:Schmidhuber, J¨urgen. Curious model-building control systems. In Neural Networks, 1991. 1991 IEEE International Joint Conference on, pp. 1458–1463. IEEE, 1991.
  1. TD-errors同时也有被用于 explore (White et al., 2014) or which features to select (Geramifard et al., 2011; Sun et al., 2011)
  • 参考文献 1:White, Adam, Modayil, Joseph, and Sutton, Richard S. Surprise and curiosity for big data robotics. In Workshops at the Twenty-Eighth AAAI Conference on Artificial Intelligence, 2014.
  • 参考文献 2 Geramifard, Alborz, Doshi, Finale, Redding, Joshua, Roy, Nicholas, and How,Jonathan. Online discovery of feature dependencies . In Proceedings of the 28th International Conference on Machine Learning (ICML-11), pp. 881–888, 2011.
  • 参考文献 3:Sun, Yi, Ring, Mark, Schmidhuber, J¨urgen, and Gomez, Faustino J. Incremental basis construction from temporal difference error. In Proceedings of the 28th International Conference on Machine Learning (ICML-11), pp. 481–488, 2011.
小小何先生 发布了171 篇原创文章 · 获赞 136 · 访问量 18万+ 私信 关注

标签:采样,frac,Paper,Experience,参考文献,Replay,rank,error,TD
来源: https://blog.csdn.net/weixin_39059031/article/details/104431053

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有