标签:时刻 函数 just Advantage 估计 Gae reward shaping GAE
1| reward. shaping
如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛
2、gae:广义优势估计
absorb state:terminal state
γ-just条件:尚未理解
GAE(Generalized Advantage Estimation)
-
GAE的作用
- GAE的意思是泛化优势估计,因而他是用来优化Advantage Function优势函数的。
- GAE的存在是用来权衡variance和bias问题的:
- On-policy直接交互并用每一时刻的回报作为长期回报的估计∑Tt′=tγt′−trt′∑t′=tTγt′−trt′ 会产生较大的方差,Variance较大。
- 而通过基于优势函数的AC方法来进行回报值估计,则会产生方差较小,而Bias较大的问题。
-
GAE 推导
满足γγ-just条件。(未完待续)
-
GAE形式
GAE的形式为多个价值估计的加权平均数。
为了快速估计序列中所有时刻的估计值,采用倒序计算,从t+1时刻估计t时刻:
标签:时刻,函数,just,Advantage,估计,Gae,reward,shaping,GAE 来源: https://www.cnblogs.com/lin-kid/p/11199380.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。