The neurobiology of deep reinforcement learning

2020-08-30 22:33:05 阅读：250 来源： 互联网

标签：大脑 deep 学习算法动物 reinforcement learning 深度 RL

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Current biology : CB, no. 11 (2020)

　　为了产生适应性行为，动物必须从与环境的相互作用中学习。描述控制该学习过程的算法以及它们如何在大脑中实现是神经科学的主要目标。一百多个世纪以前，Thorndike，Pavlov等人对动物学习进行了仔细且受控的观察，确定了直观的规则，使动物（包括人类）可以通过将感官刺激和动作与奖励相关联来从其经验中学习。但是，从以简单的范式解释学习到解密在丰富且动态的环境中如何解决复杂的问题已经证明是困难的（图1）。最近，这项工作已经获得了计算机科学家和工程师的帮助，他们希望在计算机中模拟智能自适应行为。在动物行为文献的启发下，AI的先驱者开发了一个严格的数学原理框架，可以在此框架内对基于奖励的学习进行形式化和研究。RL领域不仅成为机器学习和AI的福音，而且还为有兴趣破译大脑如何实施RL算法的生物学家提供了理论基础。

　　RL智能体解决复杂的高维学习问题的能力通过使用深度神经网络得到了显著增强（深度RL，图1）。确实，借助不断增长的计算资源，深度RL算法现在可以在许多定义完善的复杂任务上胜过人类专家，尽管仍然存在明显的差距。本入门手册的目的不是回顾快速发展的入门领域的进展，也不是比较各种算法的实现。相反，我们认为，熟悉为机器学习开发的算法可以帮助神经科学家以计算精确的方式更好地理解人和动物如何从与环境的相互作用中学习。重要的是，深度RL的发展可以帮助激发关于大脑如何实现神经电路级解决方案以应对这些挑战的新思路。

　　在本入门中，我们将简要回顾RL的基本概念，并讨论传统方法的一些缺点以及使用深度RL可以克服这些缺点的方法。然后，我们考虑大脑如何实施深度RL中的一些想法，具体来说就是：相对价值编码；策略正规化；并有效探索大型解决方案空间。

标签：大脑,deep,学习,算法,动物,reinforcement,learning,深度,RL
来源： https://www.cnblogs.com/lucifer1997/p/13587026.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

The neurobiology of deep reinforcement learning