Safe and efficient off-policy reinforcement learning（Retrace）

2021-07-20 02:32:14 阅读：242 来源： 互联网

标签：off target efficient Retrace 修正 behavior 隔得 policy based

发表时间：2016（NIPS 2016）
文章要点：提出了一种新的在off-policy算法中修正behavior policy和target policy的方法：Retrace(λ)。最常见的修正当然是importance sampling，这个方式不仅用在value based方法中，在policy based方法中也最常用。除此之外，在value based 方法中还有Q（λ）和TB（λ）。这些方法的目的都是为了修正轨迹，使得虽然轨迹是从behavior policy中得到的，修正之后就可以认为是从target policy得到的，从而用来提升target policy。但是这种修正不是没有条件的，如上表所列，importance sampling的方差很高，Q（λ）需要behavior policy和target policy隔得足够近，TB（λ）即使behavior policy和target policy隔得足够近也会做不必要的修正，从而降低了收敛速度。作者综合了这几个方法的优缺点，提出了Retrace(λ)，既不要求两个策略隔得足够近，同时也保证了方差较小，收敛速度较快。主要思路就是在两个策略隔得远的时候取min来控制方差，相当于方差大的π/μ就不用了。然后在两个策略隔得近的时候采用λπ/μ，充分利用轨迹。
总结：很有意思的工作，主要在于不需要两个策略隔得近这个条件了，放宽了很多限制。当然肯定也不是任意远都好，但至少保证了隔得再远效果依然会提升，即使效率会变慢。整个文章是在Q-learning的层面来提出和证明的，但是后面的IMPALA等policy based方法也用了类似的思路来做异步并行的训练（V-trace）,很有启发。
疑问：大概意思明白，但是证明已经看不懂了，基础还是不行啊。需要再看看rich的eligibility trace那一章。

标签：off,target,efficient,Retrace,修正,behavior,隔得,policy,based
来源： https://www.cnblogs.com/initial-h/p/15033039.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Safe and efficient off-policy reinforcement learning（Retrace）