在强化学习的训练过程中，当环境的reward很少时（指出现的次数），这样对agent的训练是很不利的。比如，让一个机器人拿起螺丝刀，再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的，因为它一开始不管做什么动作都不会得到reward，即便有exploration也只有极小的几率能成功获得reward。

所以下面介绍几种方法来处理这种Sparse Reward的方法。

Reward Shaping

既然环境的reward很稀疏，那我们就自己设定一些假的reward去引导agent往我们想要的方向。

举个例子，这里agent是这个小孩。它有两个动作，如果选择出去玩，短时间内能得到reward +1，但是之后的考试可能很很差（reward -100）；如果选择学习，短时间内可能会不爽，所以reward是-1，但是之后能获得reward +100。

所以，为了引导这个小孩（agent）能往去好好学习，就会骗他说坐下来念书给棒棒糖吃，所以对他来说下一个时间点的reward就变成+1。然后他就会选择学习这个动作，即便这个reward不是实际存在的。

未完待续。。

qqqeeevvv 发布了15 篇原创文章 · 获赞 24 · 访问量 4万+ 私信关注

标签：blog,reward,Sparse,李宏毅,学习,https,强化,Reward
来源： https://blog.csdn.net/ACL_lihan/article/details/104103873

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

【李宏毅深度强化学习笔记】7、Sparse Reward

Reward Shaping