文章目录

一、神经网络算法的内涵
二、神经元之间信息的传递
三、采用梯度下降法使误差减小
四、BP 神经网络的局限性

人工神经网络这几年太火了，普遍用于预测、语音或图像识别。四五年前曾经想学习，但没有找到好的学习资料，一直一知半解的。最近一段时间因为要用 BP 神经网络做需求预测，就重新捡起来了。中文资料大部分的讲解不清晰（符号普遍比较混乱），于是结合维基百科以及查阅的几个英文资料，写下自己对这一算法的理解。

一、神经网络算法的内涵

神经网络的目标是：找到一个能把一组输入最好地映射到其正确的输出的函数。例如一个简单的分类任务，其中输入是动物的图像，正确的输出将是动物的名称。或者根据历史需求数据，预测未来一期的需求数据。

神经网络的思想（内涵）类似回归分析中经常用到的拟合，都用到了最小二乘的思想：数学意义上的决策目标是：选取一些参数（神经网络中每个输入的权重），使得拟合的输出与期望输出的误差平方和最小。

下面是一个神经网络示意图（输入层有 3个神经元，隐含层有 3个神经元，输出层有 3个神经元），输入信息经过正向传播到输出，计算实际输出与期望输出的误差后，在反向传播误差；重复这个过程，在传播过程中，不断减少误差，直到误差减少到一定程度终止。

误差反向传播，是该神经网络叫做 BP 神经网络的原因。

在这里插入图片描述

二、神经元之间信息的传递

每个神经元接受上一层所有神经元传递过来的信息，然后传递到下一层。接受信号时，按一定权重 $w_{ij}$ 接受信号。下图是一个接受信号与传递信号的示意图：
在这里插入图片描述

$w_{ij}$ 表示从神经元 $i$ 传递到神经元 $j$ 时的权重（每个神经元的阈值 $\theta_j$ 也能放在权重里表示，为了便于推算和理解，下面就不提阈值了），神经元 $i$ 处传来的信息值大小为 $o_i$ （若神经元 $i$ 在输入层，则 $o_i=x_i$ ），则每个神经元 $j$ 的激活值 (activation value) $a_j$ 等于：
$a_j=\sum_i w_{ij}o_i\tag{1}$

神经元 $j$ 有了激活值后，根据它的激活函数（或叫传递函数） $\varphi$ ，计算得到它的信息量大小 $o_j$ ：
$o_j=\varphi(a_j)=\varphi(\sum_i w_{ij}o_i)\tag{2}$

常用的激活函数 $\varphi$ 为 Sigmoid 函数，即：
$\varphi(z)=\frac{1}{1+e^{-z}}$
使用这个函数的一个重要原因是它的一阶导数方便求解，
$\frac{\partial\varphi}{\partial z}=\varphi(z)(1-\varphi(z))\tag{3}$

三、采用梯度下降法使误差减小

一般来说，神经元 $j$ 产生的误差 $E$ 这样定义：
$E_j=\frac{1}{2}\sum_{j=1}^m(t_j-y_j)^2\tag{4}$

其中 $t_j$ 表示输出层的期望输出， $y_j$ 表示输出层的实际输出，假设输出层有 $m$ 个神经元。我们的目标是选取合适的权重 $w_{ij}$ ，使得 $E$ 最小，BP 神经网络一般采用梯度下降法逐渐更新权重（类似最优化中的最速下降法，参见本人另外一篇博客关于最速下降法的迭代公式：https://blog.csdn.net/robert_chen1988/article/details/53167156）。

因此，计算 $E$ 对 $w_{ij}$ 的一阶导数：
$\frac{\partial E_j}{\partial w_{ij}}=\frac{\partial E_j}{\partial y_j}\frac{\partial y_j}{\partial w_{ij}}$

我们同一用 $o_j$ 表示 $y_j$ （ $o_j$ 表示输出的信息值，在最后的输出层，输出的信息值为 $y_j$ ），则：
$\frac{\partial E_j}{\partial w_{ij}}=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial w_{ij}}$

根据公式 (2) 与公式 (3)，输出信息值 $o_j$ 又是激活值 $a_j$ 的函数，而激活值 $a_j$ 才与 $w_ij$ 有直接联系，因此：
$\frac{\partial E_j}{\partial w_{ij}}=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial w_{ij}}=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial a_j}\frac{\partial{a_j}}{\partial w_{ij}}\tag{5}$

下面分开计算每一项，由公式（1）：
$\frac{\partial{a_j}}{\partial w_{ij}}=\frac{\partial({\sum_i w_{ij}o_i})}{\partial w_{ij}}=o_i\tag{6}$

即这项导数是传递它信息的神经元的信息值。由公式 (3)：

$\frac{\partial{o_j}}{\partial a_j}=\varphi(a_j)(1-\varphi(a_j))=o_j(1-o_j)\tag{7}$

而计算 $\frac{\partial E}{\partial o_j}$ 则要分两种情况讨论：

若 $o_j$ 位于最后的输出层，则 $o_j=y_j$ ，根据公式（4）
$\frac{\partial E}{\partial o_j}=\frac{\partial E}{\partial y_j}=y_j-t_j\tag{8}$

根据公式（5），（6）（7）（8），得到：
$\frac{\partial E_j}{\partial w_{ij}}=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial a_j}\frac{\partial{a_j}}{\partial w_{ij}}=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial a_j}o_i=(y_j-t_j)y_j(1-y_j)o_i\tag{9}$

若 $o_j$ 位于输入层或隐含层， 神经元 $j$ 输出值 $o_j$ 造成的误差等于它输出的所有神经元造成的误差之和 (本人的理解），设神经元 $j$ 输出的神经元的集合为 $L$ ，因此得到：
$\frac{\partial E_j}{\partial o_j}=\sum_{l\in L}(\frac{\partial E_l}{\partial o_j})=\sum_{l\in L}\frac{\partial E_l}{\partial o_l}\frac{\partial o_l}{\partial a_l}\frac{\partial{a_l}}{\partial o_{j}}=\sum_{l\in L}\frac{\partial E_l}{\partial o_l}\frac{\partial o_l}{\partial a_l}w_{jl}\tag{10}$

这两种情况都满足一下式子：（只不过两种情况的 $\frac{\partial E}{\partial o_j}$ 不同）
$\frac{\partial E_j}{\partial w_{ij}}=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial a_j}\frac{\partial{a_j}}{\partial w_{ij}}=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial a_j}o_i\tag{11}$

为了方便，令
$\delta_j=\frac{\partial E_j}{\partial o_j}\frac{\partial o_j}{\partial a_j}$ ，则权重的一阶导数可以简化成：
$\frac{\partial E_j}{\partial w_{ij}}=\delta_j o_i\tag{11}$

其中， $\delta_j$ 的取值与上面两种情况有关（根据表达式（9）,（10））：
$\delta_j= \begin{cases} (y_j-t_j)y_j(1-y_j) \quad &若~j~位于输出层\\ \\ \left(\sum_{l\in L}\frac{\partial E_l}{\partial o_l}\frac{\partial o_l}{\partial a_l}w_{jl}\right)o_j(1-o_j)=\left(\sum_{l\in L}\delta_l w_{jl}\right)o_j(1-o_j)\quad &若~j~不位于输出层 \end{cases}\tag{12}$

于是，表达式（11）,（12）就是权重相对于误差的一阶导数取值。BP 神经网络采用梯度下降法使得误差降低。

类似最速下降法的思想，BP 神经网络在迭代时，采用下面的方法更新权重，不断使得误差减小：
$w_{ij}=w_{ij}-\eta\frac{\partial E_j}{\partial w_{ij}}$

其中 $\eta$ 就是梯度下降法的步长，在神经网络算法中称为学习速率，而权重沿负梯度方向更新。

四、BP 神经网络的局限性

不能保证得到全局最优解
输入的数据不要求标准化，但若标准化，可以提高神经网络的表现。

心态与做事习惯决定人生高度博客专家

发布了280 篇原创文章 · 获赞 496 · 访问量 146万+

他的留言板关注

BP 神经网络（反向传播的神经网络）的解读

文章目录

一、神经网络算法的内涵

二、神经元之间信息的传递

三、采用梯度下降法使误差减小

四、BP 神经网络的局限性

猜你喜欢

BP 神经网络（反向传播的神经网络）的解读

文章目录

一、 神经网络算法的内涵

二、神经元之间信息的传递

三、采用梯度下降法使误差减小

四、BP 神经网络的局限性

猜你喜欢

一、神经网络算法的内涵