First-Spike-Based Visual Categorization Using Reward-Modulated STDP

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Abstract

  强化学习(RL)最近以击败欧洲围棋冠军等重大成就重新受到欢迎。在这里,我们第一次表明,RL可以有效地用于训练一个脉冲神经网络(SNN),以在不使用外部分类器的情况下在自然图像中执行目标识别。我们使用了一种前向卷积SNN和一种时间编码方案,其中激活最强的神经元最先发放,而激活较弱的神经元随后发放,或者根本不发放。在最高层,每个神经元都被分配到一个对象类别,并且假设刺激类别是第一个要发放的神经元类别。如果这一假设是正确的,神经元就会得到奖励,即采用脉冲时间相关可塑性(spike-timing-dependent plasticity,STDP),从而增强神经元的选择性。另外,anti-STDP被应用,这鼓励了神经元学习其他东西。正如在各种图像数据集(Caltech、ETH-80和NORB)上所证明的那样,这种奖励调节STDP(reward-modulated STDP,R-STDP)方法提取了特别有区分度的视觉特征,而经典的无监督STDP提取了任何持续重复的特征。因此,R-STDP在这些数据集上的性能优于STDP。此外,R-STDP适合于在线学习,能够适应标签置换等剧烈变化。最后,值得一提的是,特征提取和分类都是用脉冲来完成的,每个神经元最多使用一个脉冲。因此,该网络对硬件友好且节能。

Index Terms

  首次基于脉冲的分类、强化学习(RL)、奖励调节脉冲时间相关可塑性(R-STDP)、脉冲神经网络(SNN)、时间编码、视觉目标识别。

I. INTRODUCTION

  大脑中的神经元通过突触连接,随着时间的推移,突触可以被加强或减弱。长期突触可塑性对学习至关重要,其背后的神经机制多年来一直在研究中。尖峰时间依赖性可塑性(STDP)是突触可塑性的一种无监督形式,在不同脑区观察到[1]-[4],特别是在视觉皮层[5]-[7]。STDP的工作原理是考虑突触前和突触后尖峰的时差。根据这一规律,如果突触前神经元比突触后神经元更早(晚)反应,则突触增强(减弱)。研究表明,STDP产生符合检测器,通过这种检测器,神经元可以选择频繁的输入尖峰模式,从而在模式出现时产生动作电位[8]-[11]。STDP能够很好地发现统计上频繁出现的特征;然而,作为任何无监督的学习算法,它在检测罕见但诊断性的特征以实现决策等重要功能方面都面临困难。

  一些研究表明,大脑的奖励系统在决策和行为形成中起着至关重要的作用。这也被称为强化学习(RL),它鼓励学习者重复奖励行为,避免那些导致惩罚的行为。研究发现,多巴胺作为一种神经调节剂,是奖赏系统中的重要化学物质[19],其释放量与预期的未来奖赏成正比[17]、[20]、[21]。多巴胺和其他一些神经调节剂也影响突触可塑性,如改变极性[22]或调整STDP的时间窗[23]-[27]。

  对奖励系统的作用进行建模的一个很好的研究思路是调节甚至逆转由STDP决定的权重变化,称为奖励调节STDP(R-STDP)[28]。R-STDP存储符合STDP的突触的踪迹,并在接收到调制信号时应用调制的重量变化:奖赏或惩罚(负奖赏)。

  2007年,Izhikevich[29]提出了一个R-STDP规则来解决远端奖励问题,在这个问题上,奖励不会立即收到。他用一个逐渐衰退的合格记录来解决这个问题,根据这个记录,最近的活动被认为是更重要的。他证明了他的模型可以同时解决经典条件和工具条件[30],[31]。同年,Farries和Fairhall[32]使用R-STDP训练神经元产生特定的尖峰模式。他们测量了输出和目标尖峰训练之间的差异来计算奖励的价值。此外,Florian[33]还表明R-STDP能够通过速率或时间输入编码来解决异或任务,并学习目标识别率。一年后,Legenstein等人。[34]研究了R-STDP达到预期学习效果的条件。他们通过理论分析以及在生物反馈和两类孤立语音数字识别任务中的实际应用,证明了R-STDP的优越性。Vasilaki等人。[35]研究了R-STDP关于连续空间问题的思想。结果表明,该模型能够较快地求解Morris水迷宫问题,而标准的策略梯度规则失效。通过Frémaux等人的研究继续研究R-STDP的能力。[36],其中理论上讨论了成功学习的条件。结果表明,对R-STDP同时学习多个任务来说,预测期望报酬是必要的。近年来,对大脑中RL机制的研究引起了人们的关注,研究人员试图通过奖赏调节突触可塑性来解决更实际的任务。

  视觉对象识别是一项复杂的任务,在这方面人类是专家。这项任务既需要由大脑视觉皮层完成的特征提取,也需要对涉及更高大脑区域的物体类别做出决策。尖峰神经网络(SNNs)在计算对象识别模型中得到了广泛的应用。在网络结构方面,有几个模型具有浅[40]-[43]、深[44]-[46]、递归[47]、完全连接[48]和卷积结构[40]、[46]、[49]、[50]。一些使用基于速率的编码[51]–[53],而另一些使用时态编码[40]、[43]、[46]、[48]、[54]。从反向传播[49]、[55]、tempotron[43]、[56]和其他有监督的技术[52]、[53]、[57]、[58]到无监督的STDP和STDP变体[42]、[48]、[59],各种学习技术也被应用于snn。虽然支持STDP的网络提供了一种更符合生物学原理的视觉特征提取方法,但它们需要外部读出,例如支持向量机(SVM)[46],[60],来对输入刺激进行分类。此外,STDP倾向于提取不一定适合所需任务的频繁特征。本文提出了一种基于R-STDP的分层SNN算法,在不使用任何外部分类器的情况下解决了自然图像中的视觉目标识别问题。相反,我们把类特定的神经元放在网络中,如果它们的目标刺激被呈现给网络,这些神经元会被增强到尽可能早的位置。因此,输入刺激仅根据第一次尖峰潜伏期以一种快速且生物学上合理的方式进行分类。R-STDP使我们的网络能够找到特定任务的诊断特征,从而降低最终识别系统的计算成本。

  我们的网络基于Masquelier和Thorpe的模型[40],共有四层。网络的第一层基于其定向边缘的显著性将输入图像转换为峰值延迟。这个尖峰列在第二层的本地池操作下。网络的第三层包括多个集成和(IF)神经元网格,它们将接收到的定向边缘信息结合起来,提取复杂的特征。这是我们网络中唯一一个使用R-STDP进行突触可塑性训练的层。调节突触可塑性的信号(奖惩)由第四层提供,在第四层作出网络的决定。我们的网络只使用第三层神经元发出的最早的尖峰信号来做决定,而不使用任何外部分类。如果它的决定是正确的(不正确的),则会生成一个全局奖惩信号。此外,为了提高计算效率,网络中的每个小区只允许每幅图像出现一次尖峰。每个神经元最多出现一个尖峰的动机不仅是计算效率,而且是生物现实主义[61],[62]。在没有任何分类的情况下,每个神经元最多只能有一个尖峰,这样的决策使得所提出的方法非常适合硬件实现。

  我们做了两个玩具实验来说明R-STDP的能力。我们发现采用R-STDP的网络比STDP使用更少的计算资源来发现信息特征。我们还发现,如果需要的话,R-STDP可以通过鼓励神经元忘却以前所学到的东西来改变神经元的行为。因此,重用计算资源不再有用。此外,我们使用三个不同的基准,即Caltech face/motorbike(两个类)、ETH-80(八个类)和NORB(五个类),评估了所提出的自然图像目标识别网络。实验结果表明,R-STDP比STDP更能有效地识别特定任务的特征。我们的网络在Caltech face/motorbike上的性能(识别精度)达到了98.9%,在ETH-80上达到了89.5%,在NORB数据集上达到了88.4%。

  本文的其余部分安排如下。第二节对拟议的网络作了详细说明。然后,在第三节中,给出了实验结果。最后,在第四节中,从不同的角度讨论了所提出的网络,并着重介绍了未来可能的工作。

II. MATERIALS AND METHODS

A. Overall Structure

B. Layer S1

C. Layer C1

D. Layer S2

E. Layer C2

F. Reward-Modulated STDP

G. Overfitting Avoidance

1) Adaptive Learning Rate:

2) Dropout:

H. Classification

I. Comparison of R-STDP and STDP

III. RESULTS

A. R-STDP Increases Computational Efficiency

B. Plastic Neurons

C. Object Recognition

IV. DISCUSSION

猜你喜欢

转载自www.cnblogs.com/lucifer1997/p/12906530.html