转载：AI综述专栏

AI综述专栏

在科学研究中，从方法论上来讲，都应先见森林，再见树木。当前，人工智能科技迅猛发展，万木争荣，更应系统梳理脉络。为此，我们特别精选国内外优秀的综述论文，开辟“综述”专栏，敬请关注。

导读

近年来，神经科学和AI相关领域取得快速发展。在计算机时代早期，AI的研究与神经科学和心理学的研究有着千丝万缕的关系，很多早期的研究人员都是横跨两个领域，并且取得了大量成果。可近年来，随着两个领域的研究越来越深入，学科的边界越来越明显，它们之间的交流渐渐减少。本文认为，神经科学的研究对于加速和启发AI的发展具有越来越关键的作用。

作者简介

戴密斯·哈比斯，世界著名的游戏开发者、神经科学家、人工智能科学家和企业家，AlphaGo的开发者，世界顶级人工智能研究机构——DeepMind公司创始人兼CEO。被授予伦敦帝国理工学院荣誉学位，英国皇家工程学院院士，英国皇家学会会员。从4岁开始下象棋，8岁编写计算机游戏，20岁获得剑桥大学计算机科学学士学位。毕业后创立了Elixir工作室，成为一名独立游戏开发者。2005年，回到校园学习认知神经科学，获得伦敦大学学院博士学位。博士期间以海马为研究对象，提出了关于情节记忆系统的新理论，该工作被《科学》杂志评为年度十大科学突破之一。2011年，中断博士后研究，创办了DeepMind公司，以“解决智能”为公司的终极目标。

刘博，中科院自动化所直博一年级在读，研究兴趣为深度神经网络的可解释性、生物视觉启发的视觉算法。

1 引言

2 过去

2.1 深度学习

2.2 强化学习

3 现在

3.1 注意机制

3.2 情景记忆

3.3 工作记忆

3.4 持续学习

4 未来

4.1 对物质世界的直观理解

4.2 高效学习

4.3 迁移学习

4.4 想象与规划

4.5 虚拟大脑分析

5 结束语

6 参考文献

7 推荐文献

1 引言

神经科学对于AI研究的促进主要体现在两个方面：首先，作为数学和逻辑方法的补充，神经科学为人工智能领域的新算法、新结构提供了丰富的灵感。其次，神经科学可以对现有AI算法的智能性进行验证。即虽然一个算法在数据集上没有取得很好的效果，但算法的机理符合神经计算的机理，则说明该算法值得继续探索。当然，从工程角度来看，让模型完全地符合神经机理不是必须的。神经科学只是作为一种启发，而不是强制性的。

值得注意的是，本文所指的神经科学是指包括系统神经科学、认知神经科学和心理学在内的广义的神经科学。人工智能是指包括机器学习、统计学等致力于建立智能系统的所有研究内容。本文所指的启发，是指在计算与算法、结构以及功能层次的启发。这与马尔视觉计算理论的三个层次中的前两个层次大致对应。即系统的目标（计算层次）和实现目标的方法（算法层次）。至于大脑皮层神经元是如何实现这些计算过程的（算法实现层次），这里不涉及。

下面本文将在过去、现在和未来三个阶段介绍神经科学对AI的启发作用。

2 过去

2.1 深度学习

众所周知，近年来的AI发展主要依靠的是深度学习【1】，而深度学习与神经科学有着直接而紧密的联系。神经科学家最先提出了神经网络【2】的基本模型，而现在最主流的卷积神经网络【3 4】仍然包含了神经网络最本质的特点，如层级结构、非线性激活、最大值池化等，这些特点直接来源于神经科学中对哺乳动物视觉皮层的单细胞记录实验结论。另外，神经网络中的正则化也来源于神经科学。如Dropout算法【5】，受启发于神经元发放的随机性，即神经元的响应近似服从泊松分布。总而言之，在过去的研究中，神经科学为创造新的神经网络结构和算法提供了原始的指引。

2.2 强化学习

除了深度学习，AI领域的另一个支柱是强化学习【6】。强化学习的目的是基于现有的环境状态，依据特定策略选择一个动作以获得更好的回报。强化学习的灵感直接来源于神经科学对动物学习行为的研究。特别的，强化学习中最关键的时间差分算法（Temporal-difference）受启发于对动物在特定条件下的行为研究。从机器人控制到阿法狗，时间差分算法为现有AI研究提供了关键技术。

3 现在

3.1 注意机制

当我们学习一个任务时，大脑中的神经网络并不是进行的全局优化。大脑是模块化的，不同的功能对应不同的脑区，当执行某一特定任务时只有对应的部分神经网络会激活。最近卷积神经网络中的注意机制也暗含着这种机理。直到最近，大部分的卷积神经网络对输入的整幅图像的每个像素都赋予同样的关注。但在人脑视觉系统中，视觉注意机制【7】会对输入图像中不同部分赋予不同关注，将注意在整幅图像中策略性移动。比如我们观察图像时会自觉地将注意移到图像的前景上而忽视背景，然后集中视觉处理资源对前景进行处理以快速完成物体识别。通过借鉴人类视觉注意机制，现有的卷积神经网络模型通过快速的扫描图像，逐步将注意转移到图像中下一个位置【8】。这种卷积神经模型能够使用选择性注意机制对目标物体赋予更多关注而忽略场景中不相关的背景，能够准确地完成复杂场景、具有遮挡情况下的物体识别任务【9】，在准确率和计算效率方面超过了对整幅图像赋予同等关注的普通卷积神经网络模型。

3.2 情景记忆

神经科学表明智能行为依赖于多种记忆系统。记忆一方面是基于强化学习的机理，即对经历的大量动作及其反馈值进行学习总结。另一方面是基于个例学习的机理，即对经历的个例进行快速编码和存储，这种记忆，也称为情景记忆，它的形成主要与海马区有关。最近深度学习和强化学习的结合——深度强化学习取【10 11】得了很大的突破，比如众所周知的阿法狗的核心技术就是深度强化学习。深度学习和强化学习的结合存在两个主要问题：第一是深度学习需要大量独立的样本，而强化学习中的样本都是高度相关的状态序列；第二是深度学习需要样本满足潜在分布，而强化学习中样本的分布随着学习过程而变化。为了解决训练样本高度相关以及样本分布不稳定的问题，研究人员提出了经验回放机制（experience replay），即对经历过的所有个例样本进行间隔采样获得训练数据。这种经验回放机制直接来源于对哺乳类动物大脑中多种记忆系统相互作用的研究。在哺乳类动物大脑中，首先海马区会对见到的个例信息进行编码，当进入休眠态时，这些编码会被整合到新皮质中，这个整合过程就是一种经验回放的过程。最近的研究表明【12】，当回放更多高回报的个例样本时，DQN（Deep Q-learning）中的经验回放机制能取得更好的效果。这与海马区更喜欢回放更多具有高回报的个例的现象是一致的。

3.3 工作记忆

人类智能与工作记忆紧密相关。所谓工作记忆就是在对信息进行临时保存的同时对信息进行操作。经典的认知理论认为工作记忆是通过一个中心控制器和多个独立的、与特定任务相关的记忆缓存器来完成的【13】。AI研究人员基于这一机理提出了能够在较长时间内保存历史状态信息的模型，其中循环神经网络（RNN）【14】就是一个典型。在循环神经网络的基础上，研究人员进一步提出了长短时记忆网络（LSTM）【15】，在序列建模领域取得很好的性能。值得注意的是，LSTM网络和工作记忆模型并不完全相同。在普通的LSTM网络中，序列的控制和记忆的存储是混在一起的。但在工作记忆模型中，序列控制和记忆存储是分开实现的，所以这就导致了更复杂的微分神经计算机（DNC）模型【16 17】的产生。在微分神经计算机中，序列控制和记忆存储分别使用了不同的模块。它包括了一个神经网络控制器模块，神经网络控制器能从外部存储模块中读写矩阵，并且可以进行端对端的训练，能够完成一系列更复杂的记忆和推理任务。

3.4 持续学习

一个智能体必须具备持续学习的能力。所谓持续学习，是指当学习新的任务时不能忘记之前已学习到的任务。很显然，大部分的神经网络并不具备这种能力，因为当网络在训练时，之前学习得到的参数都会被不断更新。利用先进的神经影像技术，神经科学家发现人类之所以在学习新任务的同时能够防止之前学习到的任务不被破坏，一个主要原因是已经学习好的那部分神经网络的突触可塑性降低。基于这个机理，研究人员提出了能够进行持续学习的弹性权重巩固（elastic weight consolidation，EWC）算法【18】。算法的核心思想是，在学习新任务时，算法会降低那部分对某个学习任务十分重要的子网络的学习速度，因此保留了网络对之前任务的处理能力。

4 未来

4.1 对物质世界的直观理解

与人相比，机器缺少与物质世界中核心概念有关的常识。比如空间、物体。这些常识构成了人类对物体间基本关系的认识，从而有利于人类的推理和预测。因此构建一种能够将场景分解为物体和物体间关系进而解释和推理物理场景的神经网络十分重要【19】。现在已经有工作在进行这方面研究【20 21 22】，它们通过将场景分解为物体和物体关系从而建立了一种能够解释和推理的神经网络模型，在一些推理任务上取得了人类水平的表现。另外，深度生成模型也是一个值得探索的方向，它在利用原始感知数据构建丰富的物体模型方面有重要的作用【23】。

4.2 高效学习

利用先验知识从少量样本中快速学习新的概念是人类独特的能力。为了研究机器的这种高效学习能力，Lake等人设计了一个字符识别的任务【24】。在任务中，机器在学习了单个示例后，必须将一个新的不熟悉的字符从其他类似的字符中区分出来。显然，目前的机器在还没有具备这种理解能力。值得庆幸的是，最近对结构化的概率模型【25】和深度生成模型【26】的研究将有助于机器获得这种能力，这两种模型能从少量样本中学习到新的概念，从单个示例学习中生成数据分布。同样，这种基于小样本的学习算法可以在神经科学关于动物学习的研究以及发展心理学研究中找到灵感【27】。

4.3 迁移学习

人类能够将学到的知识推广到其他之前没有接触过的概念上，比如一个使用过Windows系统的人很容易就学会使用其他操作系统。目前的研究正在让机器也获得这种迁移学习的能力。比如基于成分表征【23】的方法，它能够让识别出在训练数据分布以外的新样本。还有渐进网络，它能够被成功地用于将模拟机器人环境的知识转移到真正的机器人手臂上，大大减少了在现实世界所需的训练时间【28】。神经科学的观点认为，迁移学习的一个标志是具备进行关系推理的能力,研究人员也在开始建立解决这类问题的深度神经网络【29】。但由于人类进行迁移学习的神经机理仍然不是很清楚，所以这方面的研究还有待更多的工作投入。

4.4 想象与规划

尽管基于最大化期望价值的深度强化学习已经取得很好的性能，但这种与模型无关（model-free）的强化学习仍存在两个问题：首先它需要大量的经验才能对价值进行准确地估计；其次它的策略对价值的变化太敏感，不够灵活。相反，人类可以使用基于模拟的规划（simulation-based planning）来灵活地选择策略以最大化未来长期价值。这种基于模拟的规划使用经验对环境建立内部模型【30】，并以此生成规划。当然，研究人员也借鉴这种机理建立了基于模型（model-based）以及基于模拟的的强化学习方法，如蒙特卡洛树搜索（MCTS）【31】。但是，目前的规划算法还没有捕捉到人类规划能力中核心的特点。要解决这个问题，我们需要充分地理解动物怎样从经验中学习并建立针对环境的内部模型。神经科学家对动物怎样基于现有状态想象未来可能的情景以及如何进行基于模拟的规划进行了研究。比如，当处于选择犹豫时，大鼠海马区的神经活动与进行路径导航时的神经活动相似，好像它正在想象各种可能的方案。这表明动物通过实例化一个环境内部模型，即想象可能的场景，然后对这个场景进行评价，从而获得完成规划任务【32】。目前，基于模拟的规划取得的初步成果有基于深度生成模型【22 26 33】的方法。它能够生成时间一致的序列样本，这些样本能够反映最近经历过的现实环境的几何布局。这一算法思想与神经科学的结论也是一致的。

4.5 虚拟大脑分析

目前，虽然深度学习和深度强化学习取得了突破式的性能，但对我们来说它们还相当于一个黑盒子，我们无法解释它们的内部表达和计算机理。通过借鉴神经科学中的探测技术，比如单细胞记录、神经影像、切除技术等，有助于我们分析神经网络，更好的解释模型。最近这方面的研究取得了一些进展。首先，神经科学中通过降维来可视化大脑内部状态的方法被用来分析神经网络【34】。其次，感受野映射的方法被用来分析神经网络中单个神经元的响应特性，其中一个典型的应用就是激活最大化，它通过最大化确定类别神经元的响应来合成图像【35】。另外，受神经科学启发的线性化网络分析方法可以揭示一些对网络优化有利的重要准则，有助于理解网络深度和表达结构的作用【36】。虽然这些工作是有效的，但是理解结构更复杂的网络仍然十分困难，比如带有外部存储的网络结构。这些研究仍然需要进一步借鉴神经科学。

转载：AI综述专栏

猜你喜欢