Benchmarking Batch Deep Reinforcement Learning Algorithms

2021-09-04 02:31:06 阅读：291 来源： 互联网

标签：Batch Reinforcement batch action Algorithms value RL DQN BCQ

发表时间：2019
文章要点：这篇文章主要是针对batch RL做了一个离散动作空间的benchmark，对比了DQN和一些batch RL算法的性能（DQN，REM，QR-DQN，KL-Control，BCQ）。并且把BCQ从连续动作空间改成适用离散动作空间，取得了SOTA的效果。作者得出的结论是，要想batch RL效果好，就要考虑外推误差（extrapolation error）的问题，否则会造成unstable value estimates，导致效果不好。extrapolation error的意思就是说我在评估action value的时候，可能在fix data上并没有这个值，但是由于TD更新，不小心把这个data里没有的action value更新大了，但是其实这个值实际可能很差，这就造成了误差导致效果更差了（induced from evaluating state-action pairs which are not contained in the provided batch of data. This erroneous extrapolation is propagated through temporal difference update of most off-policy algorithms, causing extreme overestimation and poor performance）。这个其实不做实验也能想到，不过这个结论没毛病。
总结：这篇paper主要就是做了个benchmark，得出的结论也是make sense的。
疑问：文章提了好多个batch RL的算法都没看过，要是以后真要做batch RL的东西，可以从这篇里面找这些算法出来看看：QR-DQN，REM，BCQ，BEAR-QL，KL-Control，SPIBB-DQN。

标签：Batch,Reinforcement,batch,action,Algorithms,value,RL,DQN,BCQ
来源： https://www.cnblogs.com/initial-h/p/15225679.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Benchmarking Batch Deep Reinforcement Learning Algorithms