标签:maximisation 策略 动作 梯度 mu 确定性 policy theta 强化
用于估计动作-值函数
Q
π
(
s
,
a
)
Q^\pi(s,a)
Qπ(s,a)
Q
μ
(
s
,
a
)
Q^\mu(s,a)
Qμ(s,a)的策略估计方法,例如蒙特卡洛估计以及temporal-difference learning。policy改进方法根据(估计的)动作-价值函数更新policy。最常见的方法是动作-价值函数的greedy maximisation(或soft maximisation) :
μ
k
+
1
=
a
r
g
m
a
x
Q
μ
k
(
s
,
a
)
\mu^{k+1}=argmaxQ^{\mu^k}(s,a)
μk+1=argmaxQμk(s,a)
在连续动作空间里,greedy policy improvement会成为问题,需要在每一步都实现global maximisation。相反,一个简单且在计算上有吸引力的替代方案是,将policy朝着Q的梯度方向移动,而不是在全局上使Q最大化:
θ
k
+
1
=
θ
k
+
α
E
s
ρ
μ
k
[
∇
θ
Q
μ
k
(
s
,
μ
θ
(
s
)
)
]
\theta^{k+1}=\theta^{k}+\alpha \mathbb{E}_{s~\rho^{\mu^{k}}}[\nabla_\theta Q^{\mu^{k}}(s,\mu_\theta(s))]
θk+1=θk+αEs ρμk[∇θQμk(s,μθ(s))]
通过应用链式法则,我们可以看到改进的策略可以分解为动作值相对于动作的梯度,以及策略相对于策略参数的梯度。
然而,下面的理论表明,与随机政策梯度定理一样,状态分布的梯度不需要计算; 而上述直观的更新正是遵循绩效目标的梯度。
标签:maximisation,策略,动作,梯度,mu,确定性,policy,theta,强化 来源: https://blog.csdn.net/qq_41537299/article/details/120845690
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。