周志华《机器学习》学习笔记（第 5 章神经网络）

本内容记录 周志华《机器学习》——第 5 章神经网络 学习笔记。

第 5 章神经网络

5.1 神经元模型

神经网络（neural networks）方面的研究很早就已开始，今天“神经网络”已是一个相当大的、多学科交叉的学科领域。各相关学科对神经网络的定义多种多样，本书采用目前使用得最广泛的一种，即“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”。我们在机器学习中谈论神经网络时指的是“神经网络学习”，或者说，是机器学习与神经网络这两个学科领域的交叉部分。
神经网络中的最基本的成分是神经元（neuron）模型，即上述定义中的“简单单元”。
在“M-P 神经元模型”中，神经元接收到来自 $n$ 个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接（connection）进行传递，神经元接收到的总输入值与神经元的阈值进行比较，然后通过“激活函数”（activation function）处理以产生神经元的输出。
在实际应用中，通常采用 Sigmoid 函数作为激活函数。
把许多个这样的神经元按一定的层次结构连接起来，就得到了神经网络。

5.2 感知机与多层网络

感知机（Perceptron）由两层神经元组成，输入层接收外界输入信号后传递给输出层，输出层是 M-P 神经元，亦称“阈值逻辑单元”（threshold logic unit）。
需注意的是，感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元（functional neuron），其学习能力非常有限。其无法解决非线性可分问题。
要解决非线性可分问题，需考虑使用多层功能神经元。输出层与输入层之间的神经元，被称为隐层或隐含层（hidden layer），隐含层和输出层神经元都是拥有激活函数的功能神经元。
每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。这样的神经网络结构通常称为“多层前馈神经网络”（multi-layer feedforward neural networks），其中输入层神经元接收外界输入，隐层和输出层对信号进行加工，最终结果由输出层神经元输出。神经网络的学习过程，就是根据训练数据来调整神经元之间的“连接权”（connection weight）以及每个功能神经元的阈值。

5.3 误差逆传播法

多层网络的学习能力比单层感知机强得多。欲训练多层网络，需要更强大的学习算法。误差逆传播（error BackPropagation，简称 BP，也成“反向传播算法”）算法就是其中最杰出的代表，它是迄今最成功的神经网络学习算法。现实任务中使用神经网络时，大多是在使用 BP 算法进行训练。值得指出的是，BP 算法不仅可用于多层前馈神经网络，还可用于其他类型的神经网络。

证明，只需一个包含足够多神经元的隐层，多层前馈网络就能以任意精度逼近任意复杂度的连续函数。然而，如何设置隐层神经元的个数仍是个未决问题，实际应用中通常靠“试错法”（trial-by-error）调整。
正是由于其强大的表示能力，BP 神经网络经常遭遇过拟合，其训练误差持续降低，但测试误差却可能上升。有两种策略常用来缓解 BP 网络的过拟合。第一种策略是“早停”（early stopping）：将数据分为训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。第二种策略是“正则化”（regularization），其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分。

5.4 全局最小与局部极小

若用 $E$ 表示神经网络在训练集上的误差，则它显然是关于连接权 $w$ 和阈值 $\theta$ 的函数。此时，神经网络的训练过程可看作一个参数寻优过程，即在参数空间中，寻找一组最优参数使得 $E$ 最小。
我们常会谈到两种“最优”：“局部极小”（local minimum）和“全局最小”（global minimum）。对 $w^*$ 和 $\theta^*$ ，若存在 $\epsilon > 0$ 使得
$∀(w;\theta)\in\{(w;\theta)\mid||(w;\theta)-(w^*;\theta^*)||\leq\epsilon\},$
都有 $E(w;\theta)\geq E(w^*;\theta^*)$ 成立，则 $(w^*;\theta^*)$ 为局部极小解；若对参数空间中的任意 $(w;\theta)$ 都有 $E(w;\theta)\geq E(w^*;\theta^*)$ ，则 $(w^*;\theta^*)$ 为全局最小解。两者对应的 $(w^*;\theta^*)$ 分别称为误差函数的局部极小值和全局最小值。
显然，参数空间内梯度为零的点，只要其误差函数值小于邻点的误差函数值，就是局部极小点。
基于梯度的搜索是使用最为广泛的参数寻优方法。在此类方法中，我们从某些初始解出发，迭代寻找最优参数值。每次迭代中，我们先计算误差函数在当前点的梯度，然后根据梯度确定搜索方向。若误差函数在当前点的梯度为零，则已达到局部极小，更新量将为零，这意味着参数的迭代更新将在此停止。显然，如果误差函数仅有一个局部极小，那么此时找到的局部极小就是全局最小；然而，如果误差函数具有多个局部极小，则不能保证找到的解是全局最小。对后一种情形，我们称参数寻优陷入了局部极小。
在现实任务中，人们常采用以下策略来试图“跳出”局部极小，从而进一步接近全局最小：

以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数。
使用“模拟退火”（simulated annealing）技术。模拟退火在每一步都以一定的概率接收比当前解更差的结果，从而有助于“跳出”局部极小。在每次迭代过程中，接受“次优解”的概率要随着时间的推移而逐渐降低，从而保证算法稳定。
使用随机梯度下降。与标准梯度下降法精确计算梯度不同，随机梯度下降法在计算梯度时加入了随机因素。于是，即便陷入局部极小点，它计算出的梯度仍可能不为零，这样就有机会跳出局部极小继续搜索。
此外，遗传算法（genetic algorithms）也常用来训练神经网络以更好地逼近全局最小。需注意的是，上述用于跳出局部极小的技术大多是启发式，理论上尚缺乏保障。