标签:network 05 学习 AlphaGo Train policy Policy 强化 奖励
Policy-based reinforcement learning
本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0
Policy Networks
Behavior Cloning
Behavior cloning
: 是一种模仿学习,模仿学习和强化学习的主要区别在于:有没有奖励
没有奖励就是模仿学习,有奖励是强化学习
behavior cloning其实就是多分类,有361个类,其中label就是人类的下法。
如果策略网络没有见过 a t a_t at,策略网络就无法识别,就会失效。因此下一步 a t + 1 a_{t+1} at+1就会更奇怪。
Train policy network using Policy gradient
player
: 根据reward来更新policy network
强化学习用奖励来更新网络
模仿学习没有奖励
Train the value network
Mente Carlo Tree Search
标签:network,05,学习,AlphaGo,Train,policy,Policy,强化,奖励 来源: https://blog.csdn.net/HsinglukLiu/article/details/122721460
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。