On the Expressivity of Neural Networks for Deep Reinforcement Learning

2022-01-01 12:34:39 阅读：172 来源： 互联网

标签：value Neural Deep planning 2020 Reinforcement policy model dynamics

发表时间：2020（ICML 2020）
文章要点：通常一个RL的问题，dynamics都比value function和policy function更复杂，这个时候去学model的话通常还不如直接去学value和policy。但是文中给出了反例，就是dynamics比value和policy更简单，这种情况下去学model然后用planning的方式去做决策，就会比model free的方式更有优势。然后作者顺道提出了一个简单的planning算法a simple multi-step model-based bootstrapping planner (BOOTS)，就是往前走多条轨迹，然后回过头来选最好的动作。

总结：主要是给出一个例子吧，然后给人更加直接的感受，什么时候model和planning有用，什么时候model free更好。
疑问：没有看证明。

标签：value,Neural,Deep,planning,2020,Reinforcement,policy,model,dynamics
来源： https://www.cnblogs.com/initial-h/p/15755222.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

On the Expressivity of Neural Networks for Deep Reinforcement Learning