标签:Distributional Reinforcement 学习 算法 分布 Perspective Learning 2017 价值
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
arXiv:1707.06887v1 [cs.LG] 21 Jul 2017
In International Conference on Machine Learning (2017).
Abstract
在本文中,我们争论了价值分布的根本重要性:强化学习智能体获得的随机回报的分布。这与强化学习的通用方法形成对比,后者是对这种回报或价值的期望进行建模的方法。尽管已有大量研究价值分布的文献,但迄今为止,它一直被用于特定目的,例如实现风险意识行为。我们从策略评估和控制设置方面的理论结果开始,揭示了后者中的重大分布不稳定性。然后,我们使用分布的观点来设计一种新算法,该算法将Bellman方程应用于近似价值分布的学习。我们使用Arcade Learning Environment中的游戏套件评估算法。我们同时获得了最新结果和坊间证据,这些证据证明了价值分布在近似强化学习中的重要性。最后,我们结合理论和经验证据来强调在近似设置中价值分布影响学习的方式。
标签:Distributional,Reinforcement,学习,算法,分布,Perspective,Learning,2017,价值 来源: https://www.cnblogs.com/lucifer1997/p/13278861.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。