ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

强化学习中的重要性采样

2022-03-09 16:33:05  阅读:188  来源: 互联网

标签:采样 策略 离线 分布 重要性 强化


强化学习中涉及的采样方法包括重要性采样的相关内容和一些自己的思考

在之前内容的整理中涉及了一些重要性采样的内容,在介绍蒙特卡罗离线策略 时有所提及。其中详细介绍了到底什么是重要性采样。

这篇博文主要想更加深刻得思考为什么用的是重要性采样方法?

强化学习中为什么要用重要性采样?

参考链接中一句话说的很好:重要性采样出现的原因是因为原始分布难以直接采样,故需要借助一个简单、可采样的分布来计算期望。但强化学习中使用重要性采样不是因为原始分布难以采样,而是不想通过这个分布进行采样。

只要能够理解这句话,就可以分析清楚为什么有时候用重要性采样,有时候不用了?

在off policy策略中,我们希望估计目标策略下的期望回报(价值),但只有行动策略中的回报\(G_t\)。这些从行动策略中得到的回报的期望\(E[G_t|S_t=s]=v_b(s)\)是不准确的,所以不能用它们的平均来得到\(v_{\pi}\)。

具体解释

结合下忘记哪篇科普文里举的理解在线策略和离线策略的例子:皇帝想对民情有所了解,一种是微服私访、一种是派钦差大臣之类的。自己访问 自己得到 就是在线,别人访问 用了经验 就是离线。
皇帝选择做的事情会获得一定情报(暂且定为收益),臣子做的事情也会获得一定收益。不管怎么样 这两种得到的结果肯定不同,得到的收益也不同。大臣做完的事情就需要转化到皇帝那里然后进行进一步分析。

重要性采样就是在改权重 算均值。

这种情况和有策略\(\pi\)的分布,想求策略\(b\)的均值有异曲同工之妙,基本上就是一模一样。这也就是那句话,有简单的想算复杂的和想算复杂的只有简单的 解决方法其实一样。

什么时候用?

我再仔细看看为什么Q-learning 那些方法都还没用重要性采样,
待续...

参考链接

https://zhuanlan.zhihu.com/p/371156865

标签:采样,策略,离线,分布,重要性,强化
来源: https://www.cnblogs.com/yuyuanliu/p/15985405.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有