组会 | 反向传播的理论推导

上标 $(l)$ 是指该元素属于第 $l$ 层
下标 $i$ 是指该元素是当前层的第 $i$ 个元素
$y$ 是指一层的输出
$w_{ij}$ 是指权重，连接上一层的第 $i$ 个输出，和下一层的第 $j$ 个神经元
$\Sigma$ 是指加权求和
$\varphi$ 是指激活函数
$\eta$ 是指学习率

说明：本博客中省略下标或者下标不全的情况

比如 $\varphi^{(b)}$ 没有下标，是因为 $(b)$ 层只有一种激活函数；

比如写成 $w_{i}$ 而非 $w_{ij}$ ，是因为下一层只有一个神经元；

但有些时候只有一个输出时，我也加了下标，比如 $y_{1}^{(0)}$ 。

1 正向传播

在这里插入图片描述

假设一个层包含的是：权重、激活函数。
记权重为 $w^{(l)}_i$ ，其中 $(l)$ 代表权重所属的层， $i$ 表示该权重是当前层中的第 $i$ 个权重。记神经元输入经求和后的值为 $v^{(l)}$ ，经激活函数后的输出为 $y^{(l)}$ 。
上图中 $y^{(a)}_i$ 是 $(a)$ 层的输出， $(b)$ 层的输入， $y^{(b)}$ 是 $(b)$ 层的输出。假设 $(b)$ 层只有一个神经元和一个输出，因此其激活函数和输出没有下标。

上图中的数学关系

$\begin{alignat}{2} \nonumber v^{(b)} =& \sum_{i=0}^{n}w^{(b)}_i y^{(a)}_i \\ \nonumber y^{(b)} =& \varphi^{(b)}(v^{(b)}) \end{alignat}{}$

2 反向传播

在这里插入图片描述

假设 $(b)$ 层就是输出层，它的输出 $y^{(b)}$ 经损失函数后得到 $\varepsilon$ 。

2.1 输出层神经元的梯度

注意：不管是神经元还是权重的梯度，都是损失函数 $\varepsilon$ 对其进行求导。

记 $\delta^{(l)}$ 为 $(l)$ 层神经元的梯度， $(b)$ 层神经元的梯度为：

$\delta^{(b)}=\frac{\partial \varepsilon}{\partial v^{(b)}} =\frac{\partial \varepsilon}{\partial y^{(b)}} * \frac{\partial y^{(b)}}{\partial v^{(b)}} =\frac{\partial \varepsilon}{\partial y^{(b)}} * \varphi'^{(b)}(v^{(b)})$

上式无非就是利用求导的链式法则进行展开。

2.2 前一层神经元的梯度

刚才我们已经得到了输出层 $(b)$ 的神经元梯度，现在可以根据 $(b)$ 层的神经元梯度求得 $(a)$ 层的神经元梯度，即利用 $\delta^{(b)}$ 求得 $\delta_i^{(a)}$ ，计算过程如下：

$\begin{alignat}{2} \nonumber \delta^{(a)}_1 =& \frac{\partial \varepsilon}{\partial v^{(a)}_1} = \frac{\partial \varepsilon}{\partial v^{(b)}} * \frac{\partial v^{(b)}}{\partial y^{(a)}_1} * \frac{\partial y^{(a)}_1}{\partial v^{(a)}_1} \\ \nonumber =& \delta^{(b)} * w^{(b)}_1 * \varphi'^{(a)}(v^{(a)}_1) \end{alignat}{}$

说明：这里求的是 $(a)$ 层第一个神经元的梯度，对该层其他神经元同理。

推广到一般情况

假设 $(b)$ 层有 $m$ 个神经元（而非只有 $1$ 个神经元），且已得到 $(b)$ 层的神经元梯度 $\delta^{(b)}_1,...,\delta^{(b)}_m$ ，需要求解 $(a)$ 层第一个神经元的梯度 $\delta^{(a)}_1$ 。我们需要使用到的连接关系如下图所示：

在这里插入图片描述

推导过程如下：

$\begin{alignat}{2} \nonumber \delta^{(a)}_1 =& \frac{\partial \varepsilon}{\partial v^{(a)}_1} = \sum_{i=1}^{m} \frac{\partial \varepsilon}{\partial v_i^{(b)}} * \frac{\partial v_i^{(b)}}{\partial y^{(a)}_1} * \frac{\partial y^{(a)}_1}{\partial v^{(a)}_1} \\ \nonumber =& \sum_{i=1}^{m} \delta^{(b)}_i * w^{(b)}_{1i} * \varphi'^{(a)}_1(v^{(a)}_1) \\ \nonumber =& \varphi'^{(a)}_1(v^{(a)}_1) * \sum_{i=1}^{m} \delta^{(b)}_i * w^{(b)}_{1i} \end{alignat}{}$

2.3 权重的梯度

此前我们计算的都是神经元的梯度，现在计算权重的梯度，连接关系如下图所示：

在这里插入图片描述

已知 $(b)$ 层的神经元梯度 $\delta^{(b)}_j,j=1,...,m$ ，需要求 $(b)$ 层的权重梯度。推导过程如下：

$\frac{\partial \varepsilon}{\partial w_{ij}^{(b)}}= \frac{\partial \varepsilon}{\partial v_{j}^{(b)}} * \frac{\partial v_{j}^{(b)}}{\partial w_{ij}^{(b)}}= \delta_{j}^{(b)}*y_{i}^{(a)}$

3 算法举例

在这里插入图片描述

训练样本 $1$ 个： $\tau =\{(x,d)\}$ ，其中 $x=1,\ d=1$ （ $d$ 是 label）
隐藏层使用 Sigmoid 激活函数： $\varphi^{(l)}(x)=\frac{1}{1+e^{-x}},\ l\in\{1,2\}$
- 求导为： $\varphi'^{(l)}(x)=\varphi^{(l)}(x)(1-\varphi^{(l)}(x))$
输出层使用线性激活函数： $\varphi^{(l)}(x)=x,\ l\in\{3\}$
损失函数： $\varepsilon =\frac{1}{2}(d-y^{(l)})^2,\ l\in\{3\}$
初始权重为 $0.5$ ，学习率 $\eta$ 为 $0.5$

这里为了计算方便而将权重全部初始化为 $0.5$ ，导致各层中不同神经元输出的值是相同的。

3.1 前向传播

下图中红字表示权重，黑色方框是中间计算结果

在这里插入图片描述

输入值为 $1$
经权重 $0.5$ 后值为 $0.5$
经神经元 A 的 Sigmoid 激活函数后值为 $0.6225$ （对神经元 B 同理）
经加权求和后值为 $0.6225$ ，即 $0.5 * 0.6225 + 0.5 * 0.6225$
经神经元 C 的 Sigmoid 激活函数后值为 $0.6508$ （对神经元 D 同理）
经加权求和后值为 $0.6508$ ，即 $0.5 * 0.6508 + 0.5 * 0.6508$
经神经元 D 的线性激活函数后值为 $0.6508$
即输出值为 $0.6508$

3.2 反向传播

a）输出层神经元的梯度

输出层是神经元 E 的所属层

在这里插入图片描述

放正向传播的图是为了方便查看数据

$\begin{alignat}{2} \nonumber \delta^{(3)} =& \frac{\partial \varepsilon}{\partial v^{(3)}} = \frac{\partial \varepsilon}{\partial y^{(3)}} * \frac{\partial y^{(3)}}{\partial v^{(3)}} \\ \nonumber =& \partial \left (\frac{1}{2}(d-y^{(3)})^2 \right )/ \partial y^{(3)} * \varphi'^{(3)}(v^{(3)}) \\ \nonumber =& (y^{(3)}-d) * \varphi'^{(3)}(v^{(3)}) \end{alignat}{}$

代入输出值 $y^{(3)}=0.6508$ 和 label 值 $d = 1$ ，以及 $\varphi'^{(3)}(x)=1$ 得

$\delta^{(3)} = (0.6508-1)*1=-0.3492$

b）第二层隐藏层神经元的梯度

第二层隐藏层是神经元 C、D 的所属层

在这里插入图片描述

直接套用之前得到的公式：

$\delta^{(a)}_1 = \varphi'^{(a)}(v^{(a)}_1) * \sum_{i=1}^{m} \delta^{(b)}_i * w^{(b)}_{1i}$

得到第二层隐藏层第一个神经元的梯度：

$\begin{alignat}{2} \nonumber \delta^{(2)}_1 =& \varphi'^{(2)}(v^{(2)}_1) * \sum_{i=1}^{1} \delta^{(3)}_i * w^{(3)}_{1i} \\ \nonumber =& \varphi^{(2)}(v^{(2)}_1)(1-\varphi^{(2)}(v^{(2)}_1)) * \delta^{(3)}_1 * w^{(3)}_{11} \\ \nonumber =& 0.6508*(1-0.6508)*(-0.3492)*0.5 \\ \nonumber =& -0.0397 \end{alignat}{}$

由于权重和激活函数都相同，因此

$\delta^{(2)}_2=\delta^{(2)}_1=-0.0397$

c）第一层隐藏层神经元的梯度

第一层隐藏层是神经元 A、B 的所属层

在这里插入图片描述

直接套用之前得到的公式：

$\delta^{(a)}_1 = \varphi'^{(a)}(v^{(a)}_1) * \sum_{i=1}^{m} \delta^{(b)}_i * w^{(b)}_{1i}$

得到第一层隐藏层第一个神经元的梯度：

$\begin{alignat}{2} \nonumber \delta^{(1)}_1 =& \varphi'^{(1)}(v^{(1)}_1) * \sum_{i=1}^{2} \delta^{(2)}_i * w^{(2)}_{1i} \\ \nonumber =& \varphi^{(1)}(v^{(1)}_1)(1-\varphi^{(1)}(v^{(1)}_1)) * (\delta^{(2)}_1 * w^{(2)}_{11} + \delta^{(2)}_2 * w^{(2)}_{12}) \\ \nonumber =& 0.6225*(1-0.6225)*(-0.0397*0.5-0.0397*0.5) \\ \nonumber \approx& -0.0093 \end{alignat}{}$

由于权重和激活函数都相同，因此

$\delta^{(1)}_2=\delta^{(1)}_1=-0.0093$

d）各层权重的梯度

在这里插入图片描述

直接套用之前得到的公式：

$\frac{\partial \varepsilon}{\partial w_{ij}^{(b)}}= \delta_{j}^{(b)}*y_{i}^{(a)}$

第一层隐藏层权重的梯度：

$\begin{alignat}{2} \nonumber \frac{\partial \varepsilon}{\partial w_{11}^{(1)}} =&\frac{\partial \varepsilon}{\partial w_{12}^{(1)}} =\delta_{1}^{(1)}*y_{1}^{(0)} \\ \nonumber =&-0.0093*1=-0.0093 \end{alignat}{}$

$(0)$ 层的输出 $y_{1}^{(0)}$ 就是神经网络的输入 $x = 1$

第二层隐藏层权重的梯度：

$\begin{alignat}{2} \nonumber \frac{\partial \varepsilon}{\partial w_{11}^{(2)}} =\frac{\partial \varepsilon}{\partial w_{12}^{(2)}} =\frac{\partial \varepsilon}{\partial w_{21}^{(2)}} =&\frac{\partial \varepsilon}{\partial w_{22}^{(2)}} =\delta_{1}^{(2)}*y_{1}^{(1)} \\ \nonumber =&-0.0397*0.6225 \approx-0.0247 \end{alignat}{}$

第三层隐藏层权重的梯度：

$\begin{alignat}{2} \nonumber \frac{\partial \varepsilon}{\partial w_{11}^{(3)}} =&\frac{\partial \varepsilon}{\partial w_{21}^{(3)}} =\delta_{1}^{(3)}*y_{1}^{(2)} \\ \nonumber =&-0.3492*0.6508 \approx-0.2273 \end{alignat}{}$

3.3 梯度更新

梯度下降的更新公式为：

$w^{(l)}_{ij}=w^{(l)}_{ij}-\eta * \frac{\partial \varepsilon }{\partial w^{(l)}_{ij}}$

代入刚才得到的权重梯度，得到：

$\begin{alignat}{2} \nonumber w^{(1)}_{ij} =&w^{(1)}_{ij}-\eta * \frac{\partial \varepsilon }{\partial w^{(1)}_{ij}} =0.5-0.5*(-0.0093)=0.5047 \\ \nonumber w^{(2)}_{ij} =&w^{(2)}_{ij}-\eta * \frac{\partial \varepsilon }{\partial w^{(2)}_{ij}} =0.5-0.5*(-0.0247)\approx 0.5124 \\ \nonumber w^{(3)}_{ij} =&w^{(3)}_{ij}-\eta * \frac{\partial \varepsilon }{\partial w^{(3)}_{ij}} =0.5-0.5*(-0.2273)\approx 0.6137 \\ \nonumber \end{alignat}{}$

更新结果如下图所示：
在这里插入图片描述

说明：由于这里每层的权重相同，因此用 $w^{(l)}_{ij}$ 统一指代 $(l)$ 层的各个权重，比如 $w^{(2)}_{ij}$ 指的是 $(2)$ 层的各个权重。而在实际操作中，通常初始权重并不相同，应该分开计算梯度和更新权重。