以下为阅读《强化学习:原理与python实现》这本书第七章的学习笔记。
在之前学习到的强度学习方法中,都是通过学习最优价值函数来获得最优策略。现在换一个角度来思考,我们可以通过用含参函数来近似最优策略,并在迭代中更新参数值,这就是策略梯度算法。
用函数近似方法估计最优策略的基本思想是用含参函数来近似最优策略。由于任意策略都需要满足对于任意的状态,均有,我们也希望满足对于任意的,均有。为此我们可以引入动作偏好函数,使得
动作偏好函数可以具有线性组合或神经网络等多种形式,通过基于梯度的迭代算法来更新参数,就可以得到最优状态估计。
策略梯度定理
策略梯度定理给出了期望回报和策略梯度之间的关系,是策略梯度方法的基础
在回合制任务中,策略期望回报可以表示为,策略梯度定理给出了它对策略参数的梯度为
策略梯度定理告诉我们,只要知道了的值,就可以得到期望回报的梯度。因此我们可以顺着梯度的方向改变以增大期望回报。
简单的策略梯度算法
在每一个回合结束后,我们可以就回合中的每一步用以下公式来更新参数,这样的算法称为简单的策略梯度算法:
算法如下
输入:环境,策略
输出:最优策略的估计
参数: 优化器(隐含学习率),折扣因子,控制回合数和回合内步数的参数
1. (初始化)任意值
2.(时序差分更新)对每个回合执行以下操作
2.1(采样)用策略生成轨迹
2.2(初始化回报)
2.3 对t=T-1, T-2,...,0,执行以下步骤:
2.3.1(更新回报)
2.3.2(更新策略)更新以减小, 如
标签:策略,梯度,笔记,回合,算法,更新,最优 来源: https://blog.csdn.net/gzroy/article/details/121491785
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。