ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Learning and Planning in Complex Action Spaces

2021-08-19 02:31:45  阅读:218  来源: 互联网

标签:采样 动作 扩展 Planning policy Spaces Action 节点 MCTS



发表时间:2021
文章要点:文章想说,在动作空间很大或者连续的时候,想要枚举所有动作来做MCTS是不现实的。作者提出了sample-based policy iteration framework,通过采用的方式来做MCTS(Sampled MuZero)。大概思路就是说,在MCTS里面扩展动作的时候,并不枚举所有动作,而是取一个动作子集来作为备选集合,搜索就限制在这个集合里。其实思路就是这样简单,后面作者就说了很多理论的东西,大概就是想说虽然我是采样的方式来planning的,但是我这个方式是有收敛保证的,只要随着采样动作数量K趋近无穷,那么这个sample-based policy improvement operator就依分布收敛到true policy improvement operator。这个其实有点废话了,趋近无穷不就是全扩展的MCTS了。不过回过头来说这个问题,如果采样动作K远小于总的动作N,会不会学到好的策略呢?作者的结果是说完全可以,那这个怎么理解呢?这里有个隐晦的点我感觉是这样的,虽然每次在每个节点上都只采样了K个动作来做MCTS,但是不同的节点,以及每次新建一个search tree的时候,每次采样的K个动作都是不一样的。所以随着policy network和value network的更新,再加上随机探索的噪声,其实每个动作都有机会被采到,只是不是出现在同一次MCTS中的同一个节点罢了。感觉这才是这篇文章work的关键,既省了算力,同时还work。同时还有一个关键点在于,最优策略应该是确定性策略,所以最终一个节点只要有一个动作就够了,这也保证了采样K<<N个动作从原理上来说肯定是足够的。然后具体每次如何选择动作子集呢,文章简单提了一下可以均匀分布采样,也可以用policy network来采样。
总结:这篇文章还挺有意思的,至少说明了我们的树搜索其实不用完全扩展所有动作,在每次建树的时候,只需要扩展一部分来做搜索就可以了。然后这个训练的过程一直持续下去,也会探索到所有动作的。
疑问:文章扯了一堆理论的东西Operator view of Policy Improvement,其实没看明白在干啥。

标签:采样,动作,扩展,Planning,policy,Spaces,Action,节点,MCTS
来源: https://www.cnblogs.com/initial-h/p/15159611.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有