Learning from Sparse and Delayed Rewards with a Multilayer Spiking Neural Network

2021-09-28 09:33:03 阅读：165 来源： 互联网

标签：Rewards Neural SNN 突触尖峰 Learning RL STDP 神经元

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

IJCNN, pp.1-8, (2020)

Abstract

　　生物大脑在控制能力和功耗方面仍然远远超过人工智能系统。脉冲神经网络(SNN)是一种很有前途的模型，受到神经科学的启发，在功能上更接近神经元处理信息的方式。虽然神经形态硬件的最新进展允许脉冲网络的节能集成，但此类网络的训练仍然是一个悬而未决的问题。在这项工作中，我们专注于具有稀疏延迟奖励的强化学习。所提出的架构有四个不同的层，并解决了先前模型在输入维度的可扩展性方面的局限性。我们的SNN在经典强化学习和控制任务上进行评估，并与两种常见的RL算法进行比较：Q学习和深度Q网络(DQN)。实验表明，所提出的网络在具有六维观察空间的任务上优于Q学习，并且在稳定性和内存要求方面优于评估的DQN配置。

Index Terms—Reinforcement learning, spiking neural networks, reward-modulated STDP

I. INTRODUCTION

　　强化学习 (RL) 与动物的学习方式非常相似，并受其启发 [1]。这是一个非常灵活的范式，可用于训练代理执行任务，而无需事先了解如何逐步执行任务——成功试验结束时的奖励就足够了。 RL 的最新进展包括能够比人类更好地玩视频游戏的算法 [2]，以及为腿式机器人学习敏捷和动态运动技能 [3]。

　　尽管机器人技术和机器学习取得了巨大进步，但与生物系统相比，人工系统仍然存在明显的缺点。首先，虽然动物可以快速适应和学习新行为，但训练人工神经网络 (ANN) 非常耗时，并且通常需要大量示例。其次，对已经训练过的人工神经网络进行推理是耗电的，并且可以显着降低电源有限的移动应用程序的自主性，例如太空探索、机器人和可穿戴设备 [4]。例如，当人脑消耗约 20 瓦时，人脑计划对皮层的模拟预计消耗 500 兆瓦，大约相当于 25 万个家庭 [5]、[6]。

　　传统 ANN 使用接收和传输连续信号的神经模型，本质上用作通用函数逼近器。另一方面，生物神经元通过离散尖峰发送和接收信息。基于神经科学的见解，人工尖峰神经网络 (SNN) 是利用时空信息处理和低能量需求的有前途的替代方案。最先进的低功耗神经形态硬件能够实时模拟 105 到 106 个尖峰神经元 [6]。最近一项值得注意的工作提出并实现了一个完全光学尖峰神经网络，有可能进一步增加 SNN 的带宽和处理速度 [7]。

　　传统人工神经网络的训练通常涉及梯度下降方法。即使在 RL 框架中使用时，ANN 也是通过反向传播对来自环境的一系列先前观察到的样本进行训练的 [2]。虽然可以使用改进的基于梯度的优化来训练 SNN，但这并没有利用生物神经元的低功耗要求 [8]。 SNN 不是计算所有突触的全局梯度，而是可以采用一种生物学上合理的过程，称为尖峰时间依赖性可塑性 (STDP)。这种传统 ANN 使用接收和传输连续信号的神经模型，本质上用作通用函数逼近器。另一方面，生物神经元通过离散尖峰发送和接收信息。基于神经科学的见解，人工尖峰神经网络 (SNN) 是利用时空信息处理和低能量需求的有前途的替代方案。最先进的低功耗神经形态硬件能够实时模拟 105 到 106 个尖峰神经元 [6]。最近一项值得注意的工作提出并实现了一个完全光学尖峰神经网络，有可能进一步增加 SNN 的带宽和处理速度 [7]。突触可塑性规则只要求每个突触都知道相应的突触前和突触后神经元。 STDP 如图 1 所示，可应用于神经元网络。此外，STDP 可以通过全局奖励信号 (R-STDP) 进行调制，并且已被证明可以解决强化学习问题，而无需对突触进行显式梯度计算。在目前的工作中，我们专注于具有延迟和稀疏奖励的 RL 任务，类似于在成功完成任务后为动物提供食物奖励的方式。

　　第 II 节中介绍的相关工作分析表明，先前提出的 RL 尖峰网络不能随着传感器数量的增加而很好地扩展。此外，可塑性通常仅限于单层和线性可分问题。这项工作的主要目标是展示和评估一种新颖的尖峰架构，克服以前模型在感官空间可扩展性方面的局限性。我们的模型旨在用于未来在硬件上的实现。因此，我们遵循类似于最近工作 [9]、[10] 的策略，并使用简化的神经和突触可塑性模型，将紧凑性优先于生物现实主义。

II. RELATED WORK

III. PROPOSED SPIKING NETWORK

A. Neural Model

B. Synaptic Plasticity

C. Hidden Layer

D. Place Neurons

E. Output Layer

IV. EXPERIMENTS

A. Setup

B. Baseline Models

C. Hyperparameters

D. Results

V. CONCLUSION AND FUTURE WORK

标签：Rewards,Neural,SNN,突触,尖峰,Learning,RL,STDP,神经元
来源： https://www.cnblogs.com/lucifer1997/p/15346344.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Learning from Sparse and Delayed Rewards with a Multilayer Spiking Neural Network