When to Trust Your Model: Model-Based Policy Optimization

2022-01-07 09:03:39 阅读：171 来源： 互联网

标签：Based rollouts When 生成 2019 文章 based Model model

发表时间：2019（NeurIPS 2019）
文章要点：文章简单理论分析了一下model-based RL的单调收敛，然后做实验验证生成很多的短的rollouts会有比较好的效果（using short model-generated rollouts branched from real data has the benefits）。
具体的，文章提出了一个model-based policy optimization (MBPO),其实这个算法和别的方法没啥大区别，就是trajectory在真实的environment里面很长，但是用model生成数据的时候只生成短的。然后model训练了多个，用ensemble的方式来度量uncertainty。然后具体算法结合的SAC，实验做的continuous control。关于理论部分，给了一个很松的bound，说了当没说，对实际没啥指导，这里不细写了。
总结：感觉很水啊，还是Berkeley的文章，还是NeurIPS，搞不懂了。这个MBPO和其他model based方法也没啥区别啊，这也能写出来的吗。
疑问：文章里说single-step model rollouts (H = 1) provide a surprisingly effective baseline，之前《The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces》里面说生成1-step的transition还不如直接用buffer，这就尴尬了啊。。。个人感觉之前那篇文章更靠谱啊。

标签：Based,rollouts,When,生成,2019,文章,based,Model,model
来源： https://www.cnblogs.com/initial-h/p/15773633.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

When to Trust Your Model: Model-Based Policy Optimization