BP神经网络学习算法原理

一、从根本理解BP神经网络

BP神经网络是一种多层前馈神经网络，特点是：信号向前传播，误差反向传播。通俗理解就是，BP神经网络通过层与层向前传播，得到最终实际输出后，与期望输出做对比，通过“梯度下降”策略，逐层调节权重和阈值，最终得到与期望输出在误差允许范围内的神经网络模型。

二、基础知识（神经元模型和激活函数）

神经元的模型（阈值加权和），简称为M-P模型，，是神经网络的处理单元。每个符号在图中都有对应的标示，要对应着动物的神经系统去理解神经系统的精髓。在这个模型中，神经元接收到来自n个其他的神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值与神经元的阈值进行比较，然后通过“激活函数”处理，神经元再将处理结果进行输出。

理想中的激活是a（阶跃函数），它将输入值映射为输出值0或1，1对应神经元兴奋，0对应神经元抑制。如果我们期望得到离散的输出，我们可以选用阶跃激活函数但；如果我们期望得到连续的输出，我们可以选用Sigmoid函数，因为Sigmoid函数是处处连续可导的，并且导数均大于0.实际常用b（Sigmoid函数）作为激活函数。

三、BP神经网络

BP网络在前面已经介绍过了，下面带着大家推导一下。

给定训练集D={(x1,y1),(x2,y2),...(xm,ym)}，即输入示例由d个属性描述，输出l维实值向量。如图所示，Xi表示输入层第i个输入；Vih表示输入层第i个输入与隐层第h个神经元的连接权重；bh表示隐层第h个神经元的输入，Whj表示隐层第h个神经元到输出层第j个神经元的连接权重。其中输出层第j个神经元的阈值用表示，隐层第h个神经元的阈值用表示。假设隐层和输出层神经元神经元都是用Sigmoid函数。

（1）

上面公式表示输出层第j个神经元实际输出为输出层f函数处理结果，其中函数输入值为第j个神经元输入减去阈值。

（2）

上面公式表示在（Xk，Yk）上的均方误差。

（3）

上面公式表示隐层到输出层权重的差值，表示给定的学习率，表示误差，所以这个公式理解为误差对于权重的导数就是实际权重与理论权重相差值。

BP算法基于梯度下降策略，以目标的负梯度方向对参数进行调整。这个地方向小白介绍一下什么是地图下讲策略。我们在最后评估模型的时候，我们是观察测试集的实际输出结果与期望值的差值，差值越小越好。我们把梯度下降法形象的理解下：我们假设需要有画的参数有两个，则参数空间是二维的平面，我们加入实际输出结果与期望值的差值（后面我们叫做损失值）作为第三个维度，这样就形成了一个高低不同的地形图，经纬度表示参数，高度表示损失值。优化的目的是找到最低的经纬度，也就是损失值最低的两个参数。梯度下降法的思路是，首先任意选择一个地点，然后在当前找到坡度最陡的地方，沿着该方向向下坡方向迈出一步，作为新地点进行下一次迭代，这样就可以迈着最少的步，走到海拔最低的地方，也就是参数差改变最小，找到模型最好的时候。下面两幅图帮助大家理解：