神经网络反向传播BP算法举例说明

0. 前言

上篇博客对BP算法的大致步骤进行了总结，本篇博客将通过一个具体的例子来模拟一下这个算法的实现过程！

1. BP算法例子说明

1.1 网络结构

在这里插入图片描述

1.2 权重及偏移

$w = (0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.55, 0.6, 0.65)$ 分别对应 $w_1$ 至 $w_{12}$

$b = (0.35, 0.65)$ 对应 $b_1$ 和 $b_2$

1.3 激活函数

Sigmoid函数： $s i g m o i d (x) =$ ${1}\over{1+e^{-x}}$

1.4 正向传播

输入层到隐藏层

$h_1$ 的线性计算结果以及经过激活函数计算后的结果
$net_{h_1}=w_1\cdot x_1 + w_2\cdot x_2 +b_1\cdot1$
$=0.1\cdot5+0.15\cdot10+0.35\cdot1$
$= 2.35$
$out_{h_1}=\frac{1}{1+e^{-net_{h_1}}}=\frac{1}{1+e^{-2.35}}=0.9129342275597286\approx0.912934$

同上，计算 $h_2$ 和 $h_3$

$h_2$ 的线性计算结果以及经过激活函数计算后的结果
$net_{h_2}=w_3\cdot x_1 + w_4\cdot x_2 +b_1\cdot1$
$=0.2\cdot5+0.25\cdot10+0.35\cdot1$
$= 3.85$
$out_{h_2}=\frac{1}{1+e^{-net_{h_2}}}=\frac{1}{1+e^{-3.85}}=0.9791636554813196\approx0.979164$
$h_3$ 的线性计算结果以及经过激活函数计算后的结果
$net_{h_3}=w_5\cdot x_1 + w_6\cdot x_2 +b_1\cdot1$
$=0.3\cdot5+0.35\cdot10+0.35\cdot1$
$= 5.35$
$out_{h_3}=\frac{1}{1+e^{-net_{h_3}}}=\frac{1}{1+e^{-5.35}}=0.9952742873976046\approx0.995274$

隐藏层到输出层

接下来需要计算 $o_1$ 和 $o_2$ ，对于输出层计算，其输入就是上一层的输出，即 $out_{h_1}$ 、 $out_{h_2}$ 、 $out_{h_3}$ ，所以有如下计算过程：

$o_1$ 的线性计算结果以及经过激活函数计算后的结果
$net_{o_1}=w_7\cdot out_{h_1} + w_9\cdot out_{h_2} +w_{11}\cdot out_{h_3}+b_2\cdot1$
$=0.4\cdot0.912934+0.5\cdot0.979164+0.6\cdot0.995274+0.65\cdot1$
$= 2.10192$
$out_{o_1}=\frac{1}{1+e^{-net_{o_1}}}=\frac{1}{1+e^{-2.10192}}=0.8910896526253574\approx0.891090$
$o_2$ 的线性计算结果以及经过激活函数计算后的结果
$net_{o_2}=w_8\cdot out_{h_1} + w_{10}\cdot out_{h_2} +w_{12}\cdot out_{h_3}+b_2\cdot1$
$=0.45\cdot0.912934+0.55\cdot0.979164+0.65\cdot0.995274+0.65\cdot1$
$= 2.2462886$
$out_{o_2}=\frac{1}{1+e^{-net_{o_2}}}=\frac{1}{1+e^{-2.2462886}}=0.9043299162220731\approx0.904330$

误差

$E_{total}=E_{o_1}+E_{o_2}=\frac{1}{2}(0.01-0.891090)^{2}+\frac{1}{2}(0.99-0.904330)^{2}=0.39182946850000006\approx0.391829$

1.5 反向传播

输入层和隐藏层之间
此处，以更新 $w_7$ 为例，要对其求偏导：
根据链式求导法则有：

$\frac{\partial E_{total}}{\partial w_{7}}=\frac{\partial E_{total}}{\partial out_{o_1}}\cdot\frac{\partial out_{o_1}}{\partial net_{o_1}}\cdot\frac{\partial net_{o_1}}{\partial w_{7}}$

这是因为 $w_7$ 的变化，会影响 $net_{o_1}$ ， $net_{o_1}$ 又会影响 $out_{o_1}$ ， $out_{o_1}$ 又会影响 $E_{o_1}$ ，最终影响 $E_{total}$
即， $w_7\rightarrow net_{o_1}\rightarrow out_{o_1}\rightarrow E_{o_1}\rightarrow E_{total}$
PS：
上面的过程其实就类似于对一个复合函数求偏导，假设对复合函数 $f (g (h (x)))$ 求偏导，就是： $\frac{\partial f}{\partial x}=\frac{\partial f}{\partial g}\cdot\frac{\partial g}{\partial h}\cdot\frac{\partial h}{\partial x}$

又，

$E_{o_1}=\frac{1}{2}(real_{o_1}-out_{o_1})^2$

$E_{total}=E_{o_1}+E_{o_2}$

所以，

$\frac{\partial E_{total}}{\partial out_{o_1}}=2\cdot\frac{1}{2}(real_{o_1}-out_{o_1})\cdot(-1)+0=-(0.01-0.891090)=0.88109$

又，
$out_{o_1}=\frac{1}{1+e^{-net_{o_1}}}$
所以，

$\frac{\partial out_{o_1}}{\partial net_{o_1}}=out_{o_1}\cdot(1-out_{o_1})=0.891090\cdot(1-0.891090)=0.09704861189999996\approx0.097049$

PS:
这一步的偏导，其实就是对sigmoid函数求导数：
$g(z)=\frac{1}{1+e^{-z}}$
$g'(z)=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{1+e^{-z}-1}{(1+e^{-z})^2}=\frac{1}{(1+e^{-z})}-\frac{1}{(1+e^{-z})^2}=g(z)\cdot(1-g(z))$

又，
$net_{o_1}=w_7\cdot out_{h_1} + w_9\cdot out_{h_2} +w_{11}\cdot out_{h_3}+b_2\cdot1$
所以，

$\frac{\partial net_{o_1}}{\partial w_{7}}=out_{h_1}+0+0+0=0.912934$

故，

$\frac{\partial E_{total}}{\partial w_{7}}=\frac{\partial E_{total}}{\partial out_{o_1}}\cdot\frac{\partial out_{o_1}}{\partial net_{o_1}}\cdot\frac{\partial net_{o_1}}{\partial w_{7}}=0.88109\cdot0.097049\cdot0.912934\approx0.078064$

再根据梯度下降的原理，对 $w_7$ 进行更新：

$w_7'=w_7-\alpha \frac{\partial E_{total}}{\partial w_{7}}=0.4-0.5\cdot0.078064=0.360968$

上面的 $\alpha$ 是学习率，是可以人为设定的，具体的梯度下降的原理介绍可以参见这篇博客；

上面整个反向传播是以调整 $w_7$ 的值为例，对于其他的 $w$ 的更新也是与上述过程类似的！

所以，同理得到下面的更新：

$w'_8=0.453383$ ， $w'_9=0.458137$ ， $w'_{10}=0.553629$ ， $w'_{11}=0.557448$ ， $w'_{12}=0.653688$

观察这一层 $w$ 的变化，可以看到 $w_{7,9,11}$ 在原来的基础上都减小了；而 $w_{8,10,12}$ 在原来的基础上都增大了，这个变化也正好符合真实值的结果。

隐藏层和输入层之间

此处，以更新 $w_1$ 为例：

$w_1\rightarrow net_{h_1}\rightarrow out_{h_1}\rightarrow net_{o_1}\rightarrow out_{o_1}\rightarrow E_{o_1}\rightarrow E_{total}$
$w_1\rightarrow net_{h_1}\rightarrow out_{h_1}\rightarrow net_{o_2}\rightarrow out_{o_2}\rightarrow E_{o_2}\rightarrow E_{total}$

此处对其求偏导稍微复杂一点：

$\frac{\partial E_{total}}{\partial w_{1}}=\frac{\partial E_{total}}{\partial out_{h_1}}\cdot\frac{\partial out_{h_1}}{\partial net_{h_1}}\cdot\frac{\partial net_{h_1}}{\partial w_{1}}=(\frac{\partial E_{o_1}}{\partial out_{h_1}}+\frac{\partial E_{o_2}}{\partial out_{h_1}})\cdot\frac{\partial out_{h_1}}{\partial net_{h_1}}\cdot\frac{\partial net_{h_1}}{\partial w_{1}}$

$\frac{\partial E_{o_1}}{\partial out_{h_1}}=\frac{\partial E_{o_1}}{\partial out_{o_1}}\cdot\frac{\partial {out_{o_1}}}{\partial net_{o_1}}\cdot\frac{\partial {net_{o_1}}}{\partial out_{h_1}}$

后面的计算与更新过程与上边类似！

上面的整个更新就算是一次的更新，随着迭代次数的增加，会越来越接近真实的结果。

以上就是整个FP及BP过程的举例说明，下面将用代码来模拟一下这个过程！