0_1-全连接层、损失函数的反向传播

c) 设神经网络中第i层的输出为 $z^i$ ,( $z^i$ 都是行向量)则 $x=z^1, y=z^n$ ; 第 $i$ 层的权重和偏置分别为 $W^i, b^i$ ;则对于全连接层 $z^{i+1} = z^iW^i + b^i$ ; 其中 $W^i$ 和 $b^i$ 的维度分别为为 $(|l_i|,|l_{i+1}|),(1,|l_{i+1}|)$

d) 定义损失函数为 $L(y,y^*)$ ;其中 $y*$ 为样本的真实 $y$ 值

误差反向

a) 记损失函数L关于第 $i$ 层神经元的输出 $z^i$ 的偏导为 $\delta^i = \frac {\partial L} {\partial z^i} \ \ \ (1)$

b) 首先我们来看看损失函数L在最后一层参数上的偏导;也就是 $\frac {\partial L} {\partial W^{n-1}}$ 和 $\frac {\partial L} {\partial b^{n-1}}$

\begin{aligned} \frac{\partial L}{\partial W_{i, j}^{n - 1}} \\ = \frac{\partial L}{z_{j}^{n}} * \frac{\partial z_{j}^{n}}{\partial W_{i, j}^{n - 1}} (2) / / W_{i, j}^{n - 1} 是 第 n - 1 层 的 第 i 个 神 经 元 和 第 n 层 的 第 j 个 神 经 元 的 连 接 ， 所 以 只 有 z_{j}^{n} 的 误 差 经 过 W_{i, j}^{n - 1} 反 向 传 播 \\ = δ_{j}^{n} * \frac{\partial (\sum_{k = 1}^{| l_{n - 1} |} z_{k}^{n - 1} W_{k, j}^{n - 1} + b_{j}^{n - 1})}{\partial W_{i, j}^{n - 1}} (3) / / z_{j}^{n} 是 z^{n - 1} 这 个 行 向 量 与 权 重 矩 阵 W^{n - 1} 的 第 j 列 向 量 的 乘 积, 加 上 偏 置 b_{j}^{n - 1} \\ = δ_{j}^{n} * z_{i}^{n - 1} (4) \end{aligned}

$\begin{align*} & \frac {\partial L} {\partial W^{n-1}_{i,j}} \ \ \ \\ & = \frac {\partial L} {z^n_j} * \frac {\partial z^n_j} {\partial W^{n-1}_{i,j}} \ \ \ (2) \ \ \ \ //W^{n-1}_{i,j}是第n-1层的第i个神经元和第n层的第j个神经元的连接，所以只有z^n_j的误差经过W^{n-1}_{i,j}反向传播 \\ & = \delta_j^n * \frac {\partial (\sum_{k=1}^{|l_{n-1}|}z^{n-1}_k W^{n-1}_{k,j}+b^{n-1}_j)} {\partial W^{n-1}_{i,j}} \ \ \ (3) \ \ \ //z^n_j是z^{n-1}这个行向量与权重矩阵W^{n-1}的第j列向量的乘积,加上偏置b^{n-1}_j\\ & = \delta_j^n * z^{n-1}_i \ \ \ \ (4) \end{align*}$

对等式(4)一般化的向量表示为：

\begin{matrix} (5) & \frac{\partial L}{\partial W^{n - 1}} = (z^{n - 1})^{T} δ_{j}^{n} \end{matrix}

$\frac {\partial L} {\partial W^{n-1}} = (z^{n-1})^T \delta^n_j \tag 5$

同理可得：

\begin{matrix} (6) & \frac{\partial L}{\partial b^{n - 1}} = δ^{n} \end{matrix}

$\frac {\partial L} {\partial b^{n-1}} =\delta^n \tag 6$

c) 更一般的损失函数L关于第 $l$ 层(这里没有用索引 $i$ ,避免跟等式1~4中的索引名相同，引起理解障碍)的参数上的偏导，也就是 $\frac {\partial L} {\partial W^l}$ 和 $\frac {\partial L} {\partial b^l}$

\frac{\partial L}{\partial W^{l}} = \frac{\partial L}{\partial z^{l + 1}} * \frac{\partial z^{l + 1}}{\partial W^{l}} (7) = (z^{l})^{T} δ^{l + 1} (8)

$\frac {\partial L} {\partial W^l} = \frac {\partial L} {\partial z^{l+1}} * \frac {\partial z^{l+1}} {\partial W^l} \ \ \ \ (7) \\ = (z^l)^T\delta^{l+1} \ \ \ \ (8)$
同理可得：

\begin{matrix} (9) & \frac{\partial L}{\partial b^{l}} = δ^{l + 1} \end{matrix}

$\frac {\partial L} {\partial b^l} =\delta^{l+1} \tag 9$
d) 现在我们来看a)中定义的损失函数L关于第

l

$l$ 层输出的偏导

δ^{l} = \frac{\partial L}{\partial z^{l}}

$\delta^l = \frac {\partial L} {\partial z^l}$

\begin{aligned} (1) & δ_{i}^{l} = \frac{\partial L}{\partial z_{i}^{l}} \\ (2) & = \frac{\partial L}{\partial z^{l + 1}} * \frac{\partial z^{l + 1}}{\partial z_{i}^{l}} (10) / / 导 数 的 链 式 法 则 \\ (3) & = \frac{\partial L}{\partial z^{l + 1}} * \frac{\partial (z^{l} W^{l} + b^{l})}{\partial z_{i}^{l}} (11) / / z^{l} 的 定 义 \\ (4) & = \sum_{j = 1}^{| l_{l + 1} |} \frac{\partial L}{\partial z_{j}^{l + 1}} * \frac{\partial (\sum_{k = 1}^{| l_{l} |} z_{k}^{l} W_{k, j}^{l} + b_{j}^{l})}{\partial z_{i}^{l}} (12) / / 第 l + 1 层 的 每 个 节 点 都 有 梯 度 专 递 到 l 层 的 第 i 个 节 点 \\ (5) & = \sum_{j = 1}^{| l_{l + 1} |} δ_{j}^{l + 1} * W_{i, j}^{l} (13) / / 只 有 k = i 时 有 梯 度 \\ (6) & = δ^{l + 1} ((W^{l})^{T})_{i} (14) / / 可 以 表 示 为 l + 1 层 梯 度 的 行 向 量 与 权 重 W^{l} 的 转 置 的 第 i 个 列 向 量 的 乘 积 \end{aligned}

$\begin{align} &\delta^l_i=\frac {\partial L} {\partial z^l_i} \ \ \ \\ &=\frac {\partial L} {\partial z^{l+1}} * \frac {\partial z^{l+1}} {\partial z^l_i} \ \ \ (10) \ \ \ \ //导数的链式法则\\ &=\frac {\partial L} {\partial z^{l+1}} * \frac {\partial (z^lW^l + b^l)} {\partial z^l_i} \ \ \ (11) \ \ \ \ //z^l的定义\\ &=\sum_{j=1}^{|l_{l+1}|} \frac {\partial L} {\partial z^{l+1}_j} * \frac {\partial (\sum_{k=1}^{|l_l|}z^l_k W^l_{k,j}+b^l_j)} {\partial z^l_i} \ \ \ (12) \ \ \ \ //第l+1层的每个节点都有梯度专递到l层的第i个节点\\ &=\sum_{j=1}^{|l_{l+1}|} \delta^{l+1}_j * W^l_{i,j} \ \ \ (13) \ \ \ \ //只有k=i时有梯度\\ &=\delta^{l+1} ((W^l)^T)_i \ \ \ (14) \ \ \ \ // 可以表示为l+1层梯度的行向量与权重W^l 的转置的第i个列向量的乘积 \end{align}$
一般化的表示如下：

δ^{l} = \frac{\partial L}{\partial z^{l}} = δ^{l + 1} (W^{l})^{T} (15)

$\delta^l = \frac {\partial L} {\partial z^l} \\ =\delta^{l+1}(W^l)^T \ \ \ (15)$

结论

以上的证明就是为了说明下面的结论，所以请牢记以下的结论，后续自己写神经网络的反向传播都会用到以下结论

a) 根据公式15，损失函数L关于第 $l$ 层神经元的偏导，就是第 $l+1$ 层的偏导乘上第l层权重矩阵的转置。我们将公式(15)递归一下, $\delta^l=\delta^{l+1}(W^l)^T=\delta^{l+2}(W^{l+1})^T(W^l)^T=\delta^n(W^{n-1})^T(W^{n-2})^T...(W^l)^T \ \ (16)$

也就是说，只要求得损失函数L关于最后一层(n)的偏导 $\delta^n$ ,其它任意层的偏导，直接用最后一层的偏导逐层乘上权重的转置即可。很简单，很对称，有木有？

b) 根据公式(8) ,损失函数L关于第 $l$ 层权重 $W^l$ 的偏导为，第 $l$ 层输出的转置乘第 $l+1$ 层的偏导 $\frac {\partial L} {\partial W^l} = (z^l)^T\delta^{l+1} \ \ \ \ (8)$

c) 根据公式(9) ,损失函数L关于第 $l$ 层偏置 $b^l$ 的偏导,就是第 $l+1$ 层的偏导: $\frac {\partial L} {\partial b^l} =\delta^{l+1} \ \ \ (9)$

由以上可知对任意的全连接层，我们只需要只到它后一层的偏导，就可以求得当前层参数(权重、偏置)的偏导; 就可以使用梯度下降算法更新参数了

\begin{matrix} (17) & w = w - η * \frac{\partial L}{\partial w} / / η 为 学 习 率 \end{matrix}

$w = w - \eta * \frac {\partial L} {\partial w} \ \ //\eta为学习率 \tag {17}$

\begin{matrix} (18) & b = b - η * \frac{\partial L}{\partial b} \end{matrix}

$b = b - \eta * \frac {\partial L} {\partial b} \tag {18}$

根据公式(16), 损失函数L关于任何一层的偏导,只需要求导损失函数关于最后一层的偏导 $\delta^n$ 即可。 $\delta^n$ 与损失函数的定义有关，下一节介绍常用损失函数的偏导计算。

常用损失函数

以下说明损失函数的偏导的计算

均方差损失

对于单个样本 $(x,y*)$ ，定义如下：

$L(y,y*) = \frac 1 2(y-y^*)^2 \tag {19}$

其中 $y$ 是神经网络最后一层的输出 $y=z^n$ ,就是预测值

\begin{aligned} (7) & \frac{\partial L}{\partial y_{i}} = \frac{\partial (\frac{1}{2} (y_{i} - y_{i}^{*})^{2})}{\partial y_{i}} \\ (8) & = (y_{i} - y_{i}^{*}) * \frac{\partial (y_{i} - y_{i}^{*})}{\partial y_{i}} \\ (9) & = (y_{i} - y_{i}^{*}) (20) \end{aligned}

$\begin{align} &\frac {\partial L} {\partial y_i} = \frac {\partial (\frac 1 2(y_i - y^*_i)^2)} {\partial y_i} \\ &=(y_i - y^*_i) * \frac {\partial (y_i - y^*_i)} {\partial y_i} \\ &=(y_i - y^*_i) \ \ \ \ \ \ \ (20) \end{align}$
更一般的表示为

\frac{\partial L}{\partial y} = y - y^{*}

$\frac {\partial L} {\partial y} = y - y^*$ ; 也就是

\begin{matrix} (21) & δ^{n} = \frac{\partial L}{\partial y} = y - y^{*} = z^{n} - y^{*} \end{matrix}

$\delta^n=\frac {\partial L} {\partial y}=y-y^* = z^n-y^* \tag {21}$

即使用均方误差情况下，损失函数L关于网络最后一层的导数就是预测值减实际值

交叉熵损失

交叉熵用于度量两个概率分布的差异;一般使用交叉熵损失前，会对网络输出做softmax变换进行概率归一化；所以我们这里介绍的交叉熵损失是带softmax变换的交叉熵。

softmax变换定义如下：

\begin{matrix} (22) & a_{i} = e^{y_{i}} / \sum_{k} e^{y_{k}} \end{matrix}

$a_i=e^{y_i}/\sum_k e^{y_k} \tag {22}$
交叉熵损失定义如下：

\begin{matrix} (23) & L (y, y^{*}) = - \sum_{i} y_{i}^{*} \log a_{i} \end{matrix}

$L(y,y^*) = - \sum_i y^*_i \log a_i \tag {23}$
a) 我们先来求

a_{i}

$a_i$ 关于

y_{j}

$y_j$ 的偏导

\begin{aligned} \frac{\partial a_{i}}{\partial y_{j}} = \frac{\partial (e^{y_{i}} / \sum_{k} e^{y_{k}})}{\partial y_{j}} \\ = \frac{\partial e^{y_{i}}}{\partial y_{j}} * \frac{1}{\sum_{k} e^{y_{k}}} + e^{y_{i}} * \frac{- 1}{(\sum_{k} e^{y_{k}})^{2}} * \frac{\partial (\sum_{k} e^{y_{k}})}{\partial y_{j}} \\ = \frac{\partial e^{y_{i}}}{\partial y_{j}} * \frac{1}{\sum_{k} e^{y_{k}}} - \frac{e^{y_{i}}}{(\sum_{k} e^{y_{k}})^{2}} * e^{y_{j}} \\ = {\begin{cases} \frac{e^{y_{j}}}{\sum_{k} e^{y_{k}}} - \frac{(e^{y_{j}})^{2}}{(\sum_{k} e^{y_{k}})^{2}} & i = j \\ - \frac{e^{y_{i}} e^{y_{j}}}{(\sum_{k} e^{y_{k}})^{2}} & i \neq j \end{cases} \\ (24) & = {\begin{cases} a_{i} (1 - a_{i}) & i = j \\ - a_{i} a_{j} & i \neq j \end{cases} \end{aligned}

$\begin{align*} &\frac {\partial a_i} {\partial y_j} = \frac {\partial(e^{y_i}/\sum_k e^{y_k})} {\partial y_j} \\ &= \frac {\partial e^{y_i}} {\partial y_j} * \frac {1} {\sum_k e^{y_k}} + e^{y_i} * \frac {-1} {(\sum_k e^{y_k})^2} * \frac {\partial (\sum_k e^{y_k})} {\partial y_j} \\ &= \frac {\partial e^{y_i}} {\partial y_j} * \frac {1} {\sum_k e^{y_k}} - \frac {e^{y_i}} {(\sum_k e^{y_k})^2} * e^{y_j} \\ &=\begin{cases} \frac {e^{y_j}} {\sum_k e^{y_k}} - \frac {(e^{y_j})^2} {(\sum_k e^{y_k})^2} & i=j \\ -\frac {e^{y_i}e^{y_j}} {(\sum_k e^{y_k})^2} & i\neq\ j \end{cases} \\ &=\begin{cases} a_i(1-a_i) & i=j \\ -a_ia_j & i\neq\ j \tag {24} \end{cases} \end{align*}$

b) 然后我们来求L关于 $y_j$ 的偏导

\begin{aligned} (10) & \frac{\partial L}{\partial y_{j}} = - \sum_{i} \frac{\partial (y_{i}^{*} \log a_{i})}{\partial a_{i}} * \frac{\partial a_{i}}{\partial y_{j}} \\ (11) & = - \sum_{i} \frac{y_{i}^{*}}{a_{i}} * \frac{\partial a_{i}}{\partial y_{j}} \\ (12) & = - \frac{y_{j}^{*}}{a_{j}} * a_{j} (1 - a_{j}) + \sum_{i \neq j} \frac{y_{i}^{*}}{a_{i}} * a_{i} a_{j} & / / 注 意 这 里 i 是 变 量, j 是 固 定 的 \\ (13) & = - y_{j}^{*} (1 - a_{j}) + \sum_{i \neq j} y_{i}^{*} a_{j} \\ (14) & = - y_{j}^{*} + \sum_{i} y_{i}^{*} a_{j} & / / 所 有 真 实 标 签 的 概 率 之 和 为 1 \\ (15) & = a_{j} - y_{j}^{*} \end{aligned}

$\begin{align} &\frac {\partial L} {\partial y_j} = - \sum_i\frac {\partial( y^*_i \log a_i )} {\partial a_i} * \frac {\partial a_i} {\partial y_j} \\ &=- \sum_i \frac {y^*_i} {a_i} * \frac {\partial a_i} {\partial y_j} \\ &= - \frac {y^*_j} {a_j} * a_j(1-a_j) + \sum_{i \neq\ j} \frac {y^*_i} {a_i} * a_ia_j & //注意这里i是变量,j是固定的 \\ &=-y^*_j(1-a_j) + \sum_{i \neq\ j} y^*_ia_j \\ &= - y^*_j + \sum_iy^*_i a_j & //所有真实标签的概率之和为1\\ &=a_j - y^*_j \end{align}$
更一般的表示为 :

$\frac {\partial L} {\partial y} = a - y^* \tag {25}$

所以使用带softmax变换的交叉熵损失函数，损失函数L关于网络最后一层的导数就是预测值经softmax变换后的值减去真实值。(是不是跟均方差损失函数很相似,注意还是有差异的噢)