ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

强化学习快速入门

2020-06-17 23:04:18  阅读:395  来源: 互联网

标签:入门 神经网络 Actor 学习 Critic Sarsa 更新 learning 强化


强化学习快速入门

https://www.bilibili.com/video/BV13W411Y75P?p=31

  • Q-learning:查表学习,每个行为在表中有对应的Q值,每一轮通过现实和估计的差距来更新表,具体的更新规则如下。值的注意的是,Q现实项中有一项为下一行为中最大奖励的估计。

image-20200617205736937

  • Sarsa:和Q-learning类似,不同点在于更新规则。

image-20200617210707259

  • Sarsa和Q-learning对比:为啥Q-learning会更勇敢一点?

image-20200617211413026

  • Sarsa(λ):Sarsa原算法缺陷是只有最后的一步被增强,加上拉姆达后,通向成功的每一步都有其对应的增强值,由lamada控制。

image-20200617213327345

  • DQN:传统算法的缺陷是表规模受限,神经网络的引入使得大规模行为和Q的映射的存储成为可能,其更新机制如下。其中,记忆重放和固态Q-目标是两个打乱相关性的技巧,这暂时不知道怎么理解,猜测是跟泛化能力有关。

image-20200617214955882

  • Policy-Gradients:之前的方法都是只针对离散行为,当输出动作是连续时,Policy-Gradients就要上场了。利用神经网络来存储各种动作的概率,通过reward来更新各种动作的概率。

image-20200617220827530image-20200617221113094

存在问题:回合制更新,只有到Reward那步才更新。

  • Actor-Critic:类似GAN的思想,Actor是利用Policy-gradient的生成网络,Critic是负责对生成行为和环境评估Q值的网络。这样的操作使得其能够实现单步更新(critic评价状态和actor行为)

image-20200617221748917

存在问题:Actor-Critic更新存在相关性?神经网络学不到东西?只能片面地看问题?连续状态下更新,相关性比较大,比较难收敛?

image-20200617221936427

  • DDPG:deep deterministic policy gradient,结合了DQN和policy gradient的优点,Actor和Critic各自有两个神经网络,一共四个网络,更新策略如下所示。

image-20200617223836759

  • A3C:人多力量大,多个Actor一起学习。

  • PPO:解决学习率调节的问题,让新旧策略变化幅度控制住。

标签:入门,神经网络,Actor,学习,Critic,Sarsa,更新,learning,强化
来源: https://www.cnblogs.com/YiXinLiu617/p/13155204.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有