强化学习的学习之路（十八）_2021-01-18： Policy Optimazation

2021-02-21 10:58:20 阅读：222 来源： 互联网

标签：function 01 based 策略 18 value RL 2021 Policy

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！

Policy Optimazation

先说一个我觉得很好的观点，可以把策略梯度法看成一个加权了的最大似然估计法，加的这个权重是轨迹得到的回报，也就是说，我们不是希望学出来的策略和采样得到的轨迹的概率分布接近，而是我们希望最大化那些回报大的轨迹出现的概率，也就是希望策略去实施得到的轨迹尽可能能获得大的回报。

定义

与基于价值的策略不同，基于策略的优化不再去求价值函数，而是直接去算策略参数的梯度去进行优化。也就是说输入是比如前面说的游戏的图片，输出的直接就是每个动作的概率。

在这里插入图片描述

Valued-based和Policy-based RL对比

Value-based RL
- to learn value function 去学价值函数
- implicit policy based on the value function 通过价值函数隐含地学出策略
Policy-based RL
- no value function 没有价值函数
- to learn policy directly 直接去学策略
Actor-critic
- to learn both policy and value function 即学价值函数，也学策略

在这里插入图片描述

Advantages of Policy-based RL

Advantages:
better convergence properties: we are guaranteed to converge on a local optimum (worst case) or global optimum (best case) 更好的收敛性，保证起码收敛到一个局部最优点
Policy gradient is more effective in high-dimensional action space 在高维空间中更有效
Policy gradient can learn stochastic policies, while value function can’t 基于策略的方法可以学出随机策略，而基于值的方法不行
Disadvantages:
- typically converges to a local optimum 总是收敛到局部最优点
- evaluating a policy has high variance 评估策略的时候总是方差很大

Policy Optimazation的方法

Policy-based RL is an optimization problem that find θ \theta θ that maximizes J ( θ ) J(\theta) J(θ)
If J ( θ ) J(\theta) J(θ) is differentiable, we can use gradient-based methods: 如果目标函数是可导的，那我们就可以用基于梯度的方式去求解基于策略的强化学习方法
- gradient ascend
- conjugate gradient
- quasi-newton
If J ( θ ) J(\theta) J(θ) is non-differentiable or hard to compute the derivative, some derivative-free black-box optimization methods:
- Cross-entropy method (CEM)
- Hill climbing
- Evolution algorithm

标签：function,01,based,策略,18,value,RL,2021,Policy
来源： https://blog.csdn.net/zyh19980527/article/details/113915000

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

强化学习的学习之路（十八）_2021-01-18： Policy Optimazation

Policy Optimazation

定义

Valued-based和Policy-based RL对比

Advantages of Policy-based RL

Policy Optimazation的方法