ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Improving Generalization in Reinforcement Learning with Mixture Regularization

2021-10-28 10:34:20  阅读:232  来源: 互联网

标签:Regularization Mixture 泛化 插值 环境 Reinforcement 2020 文章 方法



发表时间:2020(NeurIPS 2020)
文章要点:这篇文章提出了一个叫mixreg的方法来提高agent泛化性。大致方法就是说用多个环境训练,并且对环境做插值,这样学到的策略就会更平滑,泛化性就更好。具体的,我有两个状态,通过加权插值的方式得到一个新的状态

这里权重λ通过从贝塔分布采样得到

对应的所有的监督信号都要做相应的插值

比如PPO里面advantage和action

DQN里面也同理。然后整个方法就介绍完了,就是这么简单。。
总结:感觉也太简单粗暴了,这也可以是NIPS,还是有点吃惊的,可能就是效果不错?不过这也给了我们这些人一些中NIPS的希望吧。
疑问:如果不同环境的动作空间不一样的话,是不是就没法这么做插值了?
看文章里说,不同环境主要是背景颜色之类的区别,是不是因为这样这个方法才work的?如果真的有两个完全不一样的环境给你插值,插出来的状态可能就四不像了吧。
文章里面提了很多别人做的增强泛化性的方法,结果一做实验甚至比PPO的baseline还差,这感觉有点说不过去啊,难道别人之前的方法都是假的,还是说这些方法不适合强化,就像文章说的这些方法只加了局部扰动,对泛化性没用,而且反而增加了无关的discrepancy,这个解释说得通吗?

标签:Regularization,Mixture,泛化,插值,环境,Reinforcement,2020,文章,方法
来源: https://www.cnblogs.com/initial-h/p/15474298.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有