【从线性回归到BP神经网络】第四部分：BP神经网络

文章目录

本文主要参考文献如下：
1、吴恩达《深度学习》视频。
2、周志华. 《机器学习》3.2.清华大学出版社。
3、陈明等，《MATLAB神经网络原理与实例精解》，清华大学出版社。

这部分强烈推荐吴恩达的《深度学习》视频，讲解得非常浅显易懂。

前面介绍的Logistic回归，实际上就构成了一个神经元。如果有多个层，同时每个层有多个神经元，就形成了多层神经网络。我们这里所说的BP神经网络，实际上是多层前馈神经网络+误差反向传播算法，换句话说前者计算神经网络的输出，后者则根据估计输出与实际输出的误差，从后往前逆向更新每一层的参数。我们想从一个简单的两层BP网络入手，再推广到多层的情况。

1、2层前馈神经网络模型

我们先来考虑2层NN。我们假定输入层、隐含层和输出层的神经元个数分别为 $n^{[0]}=3$ ， $n^{[1]}=4$ ， $n^{[2]}=1$ ，前馈NN模型如图1所示，我们从输出层向后，逐层推导其输出 $\hat y$ 。
在这里插入图片描述

图1 多层前馈神经网络模型

(1) 单个样本

我们先来推导单个样本是BP网络的前馈输出。

输入层
$\tag{1} {\bf a}^{[0]}={\bf x}=\left[\begin{aligned}x_1\\x_2\\x_3 \end{aligned}\right]\in {\mathbb R}^{n^{[0]}\times 1}$
隐含层
$\tag{2} {\bf W}^{[1]}=\left[\begin{aligned}{\bf w}^{[1]}_1\\ {\bf w}^{[1]}_2\\ {\bf w}^{[1]}_3\\ {\bf w}^{[1]}_4 \end{aligned}\right]\in {\mathbb R}^{n^{[1]}\times n^{[0]}}, {\bf b}^{[1]}=\left[\begin{aligned}{b}^{[1]}_1\\ {b}^{[1]}_2\\ {b}^{[1]}_3\\ {b}^{[1]}_4 \end{aligned}\right]\in {\mathbb R}^{n^{[1]}\times 1}$ 其中，每一行对应一个神经元的加权系数。显然，每个神经元会进行两步运算，第一步是线性叠加
$\tag{3} {\bf z}^{[1]}={\bf W}^{[1]} {\bf a}^{[0]}+{\bf b}^{[1]}\in {\mathbb R}^{n^{[1]}\times 1}$ 第二步为激活函数，因此隐含层的输出为
$\tag{4} {\bf a}^{[1]}=g({\bf z}^{[1]})$ 这里的 $g(\cdot)$ 为激活函数，后面我们设其为sigmoid函数。
输出层
由于 $n^{[2]}=1$ ，即只有一个输出，因此可以得到
$\tag{5} {\bf W}^{[2]}=\left[\begin{aligned}{\bf w}^{[2]}_1\\ \end{aligned}\right]\in {\mathbb R}^{n^{[2]}\times n^{[1]}}, {\bf b}^{[2]}=\left[\begin{aligned}{b}^{[2]}_1\\ \end{aligned}\right]\in {\mathbb R}^{n^{[2]}\times 1}$ 同样需要两步处理，第一步
$\tag{6} {\bf z}^{[2]}={\bf W}^{[2]} {\bf a}^{[1]}+{\bf b}^{[2]}\in {\mathbb R}^{n^{[2]}\times 1}$ 第二步输出为
$\tag{7} {\bf a}^{[2]}=g({\bf z}^{[2]})$ 因此，对于二分类问题，与Logistic回归类似，我们会将 ${a}^{[2]}$ 作为 $\hat y=1$ 的概率进行判决。

(2) 多个样本时的矩阵表示

如果对多个样本进行批量处理，我们可以用矩阵形式运算速度会更快。下面我们考虑一共有 $m$ 个样本输入的情况。

输入层
显然输入层不再是向量，而变成矩阵。
$\tag{8} {\bf A}^{[0]}=[{\bf a}^{[0]}_1,{\bf a}^{[0]}_2,\ldots,{\bf a}^{[0]}_m]=[{\bf x}_1,{\bf x}_2,\ldots,{\bf x}_m]\in {\mathbb R}^{n^{[0]}\times m}$
隐含层
隐含层的参数不受样本数的影响，重写如下
$\tag{9} {\bf W}^{[1]}=\left[\begin{aligned}{\bf w}^{[1]}_1\\ {\bf w}^{[1]}_2\\ {\bf w}^{[1]}_3\\ {\bf w}^{[1]}_4 \end{aligned}\right]\in {\mathbb R}^{n^{[1]}\times n^{[0]}}, {\bf b}^{[1]}=\left[\begin{aligned}{b}^{[1]}_1\\ {b}^{[1]}_2\\ {b}^{[1]}_3\\ {b}^{[1]}_4 \end{aligned}\right]\in {\mathbb R}^{n^{[1]}\times 1}$ 因此，可以得到
$\tag{10} {\bf Z}=[{\bf z}^{[1]}_1,{\bf z}^{[1]}_2, \ldots,{\bf z}^{[1]}_m]={\bf W}^{[1]} {\bf A}^{[0]}+[{\bf b}^{[1]},{\bf b}^{[1]},\ldots,{\bf b}^{[1]}]\in {\mathbb R}^{n^{[1]}\times m}$ 则隐含层的输出为
$\tag{11} {\bf A}^{[1]}=g({\bf Z}^{[1]})\in {\mathbb R}^{n^{[1]}\times m}$
输出层
同样，参数矩阵与单样本时相同，即
$\tag{12} {\bf W}^{[2]}=\left[\begin{aligned}{\bf w}^{[2]}_1\\ \end{aligned}\right]\in {\mathbb R}^{n^{[2]}\times n^{[1]}}, {\bf b}^{[2]}=\left[\begin{aligned}{b}^{[2]}_1\\ \end{aligned}\right]\in {\mathbb R}^{n^{[2]}\times 1}$ 可以得到
$\tag{13} {\bf Z}^{[2]}={\bf W}^{[2]} {\bf A}^{[1]}+[{\bf b}^{[2]},{\bf b}^{[2]},\ldots,{\bf b}^{[2]}]\in {\mathbb R}^{n^{[2]}\times m}$ 最后输出为
$\tag{14} {\bf A}^{[2]}=g({\bf Z}^{[2]})$

2、2层前馈NN的误差反向传播（BP）算法

下面我们考虑误差逆向传播算法，即从代价函数开始，从后往前逐层更新参数 $\bf W$ 和 $\bf b$ 。我们继续考虑图1中的两层网络，同样分成单个样本和多个样本两种情况。

(1) 单个样本

我们先考虑图2中单样本情况，即 $m = 1$ 。下面我们推导如何从右往左逐层更新参数 ${\bf W}^{[2]}$ 、 ${\bf b}^{[2]}$ 、 ${\bf W}^{[1]}$ 和 ${\bf b}^{[1]}$ 。当然这中间也会涉及到 ${\bf a}^{[2]}$ 、 ${\bf z}^{[2]}$ 、 ${\bf a}^{[1]}$ 、 ${\bf z}^{[1]}$ 的变化。
在这里插入图片描述

图2 图1中2层NN的误差反向传播算法模型

代价函数
与Logistic回归类似，这里代价函数定义为对数似然函数，即
$\tag{21} J=\ell(y,\hat y)=-y\log \hat y-(1- y)\log(1-\hat y)$ 这里 ${\bf a}^{[2]}=\hat y$ ，由于只有一个输出单元，因此为标量。
$d{\bf a}^{[2]}=\frac{dJ}{d{\bf a}^{[2]}}$
由于 ${\bf a}^{[2]}=\hat y$ 为标量，因此根据(21)有
$\tag{22} d{ a}^{[2]}=-\frac{y}{ {a}^{[2]}}+\frac{1-y}{1-{ a}^{[2]}}.$
$d{\bf z}^{[2]}=\frac{dJ}{d{ \bf z}^{[2]}}$
进一步，我们知道 ${ a}^{[2]}=g^{[2]}({z}^{[2]})$ ，这里考虑Sigmoid函数，即 $a}^{[2]}=\sigma({ z}^{[2]})$ ，因此有
$\tag{23} \frac{d{ a}^{[2]}}{d{ z}^{[2]}}=\sigma({ z}^{[2]})[1-\sigma({ z}^{[2]})]={ a}^{[2]}[1-{ a}^{[2]}]$

事实上，一般来说输出层的激活函数都用Sigmoid函数。

由此，得到
$\tag{24} d{ z}^{[2]}=\frac{dJ}{d{ z}^{[2]}}=d{ a}^{[2]}\cdot\frac{d{ a}^{[2]}}{d{ z}^{[2]}}=a^{[2]}-y.$

$d{\bf W}^{[2]}=\frac{dJ}{d{ \bf W}^{[2]}}$ 和 $d{\bf b}^{[2]}=\frac{dJ}{d{ \bf b}^{[2]}}$
再进一步，根据(6)，有
$\tag{25} \frac{\partial{ z}^{[2]}|_{n^{[2]}\times 1}}{\partial{\bf W}^{[2]}|_{n^{[2]}\times n^{[1]}}}={\bf a}^{[1]}\in{\mathbb R}^{n^{[1]}\times 1},\frac{\partial{ z}^{[2]}}{\partial{ b}^{[2]}}=1$

$z^{[2]}={\bf w}^{[2]}{\bf a}^{[1]}+b^{[2]}=w^{[2]}_1a^{[1]}_1+w^{[2]}_2a^{[1]}_2+w^{[2]}_3a^{[1]}_3+b^{[2]}$ 因此，这里 $z^{[2]}$ 是标量函数，对行向量 ${\bf w}^{[2]}$ 求偏导，仍为行向量，即
$\frac{\partial z^{[2]}}{\partial {\bf w}^{[2]}}={\bf a}^{[1]T}$

因而，可以得到
$\tag{26} d{\bf W}^{[2]}={d{ z}^{[2]}}\cdot \frac{\partial{ z}^{[2]}}{\partial{\bf W}^{[2]}}={d{ z}^{[2]}} {\bf a}^{[1]T}\\ d{b}^{[2]}={d{ z}^{[2]}}\cdot\frac{\partial{ z}^{[2]}}{\partial{\bf W}^{[2]}}={d{ z}^{[2]}}$

$d{\bf a}^{[1]}=\frac{dJ}{d{ \bf a}^{[1]}}$
根据(6)，有 ${\bf z}^{[2]}={\bf W}^{[2]} {\bf a}^{[1]}+{\bf b}^{[2]}\in {\mathbb R}^{n^{[2]}\times 1}$ ，因此
$\tag{27} \frac{d{ z}^{[2]}|_{n^{[2]}\times 1}}{d{\bf a}^{[1]}|_{n^{[1]}\times 1}}={\bf W}^{[2]}\in{\mathbb R}^{n^{[2]}\times n^{[1]}}\\ {d{\bf a}^{[1]}}= \frac{d{ z}^{[2]}|}{d{\bf a}^{[1]}} d{ z}^{[2]}={\bf W}^{[2]{\rm T}}d{ z}^{[2]}$

$z^{[2]}={\bf w}^{[2]}{\bf a}^{[1]}+b^{[2]}=w^{[2]}_1a^{[1]}_1+w^{[2]}_2a^{[1]}_2+w^{[2]}_3a^{[1]}_3+b^{[2]}$ 因此，这里 $z^{[2]}$ 是标量函数，对列向量 ${\bf a}^{[1]}$ 求导，仍为列向量，即
$\frac{d z^{[2]}}{d {\bf a}^{[1]}}={\bf w}^{[2]T}$

$d{\bf z}^{[1]}=\frac{dJ}{d{ \bf a}^{[1]}}$
根据(4.4)，由于 ${\bf a}^{[1]}=g^{[1]}({\bf z}^{[1]})$ ，若考虑Sigmoid函数，有
$\tag{28} \frac{d{\bf a}^{[1]}}{d{\bf z}^{[1]}}={\bf a}^{[1]}.*(1-{\bf a}^{[1]})\in {\mathbb R}^{n^{[1]}\times 1}$ 这里 $. *$ 表示逐项相乘。

注意这里 ${\bf a}^{[1]}=g^{[1]} ({\bf z}^{[1]})$ ，因此是逐项把 $a^{[l]}_n=g^{[1]}(z^{[l]}_n)$ 求导，再代回向量中。上式考虑Sigmoid函数，注意乘法为逐项相乘，才能保证向量维度不变。

因此
$\tag{29} d{\bf z}^{[1]}=\frac{d{\bf a}^{[1]}}{d{\bf z}^{[1]}}\cdot {d{\bf a}^{[1]}}= {\bf W}^{[2]T}dz^{[2]}.*{ {g'^{[1]}} ({\bf z}^{[1]})}\in {\mathbb R}^{n^{[1]}\times 1}$

$d{\bf W}^{[1]}$ 和 $d{\bf b}^{[1]}$
根据（3)，即 ${\bf z}^{[1]}={\bf W}^{[1]}{\bf a}^{[0]}+{\bf b}^{[1]}\in {\mathbb R}^{n^{[1]}\times 1}\\ z^{[1]}_1={\bf w}^{[1]}_1{\bf a}^{[0]}+b^{[1]}_1$

$\frac{\partial{\bf z}^{[1]}}{\partial {\bf W}^{[1]}}=\left[ \begin{aligned} \frac{\partial{z_1}^{[1]}}{\partial {\bf w}_1^{[1]}}\\ \frac{\partial{ z_2}^{[1]}}{\partial {\bf w}_2^{[1]}}\\ \frac{\partial{ z_3}^{[1]}}{\partial {\bf w}_3^{[1]}}\\ \frac{\partial{ z_4}^{[1]}}{\partial {\bf w}_4^{[1]}} \end{aligned} \right]=\left[ \begin{aligned} {\bf a}^{[0]T}\\ {\bf a}^{[0]T}\\ {\bf a}^{[0]T}\\ {\bf a}^{[0]T} \end{aligned} \right]\in {\mathbb R}^{n^{[1]}\times n^{[0]}}$
似乎这里只取其中一个行向量，即
$\frac{\partial{\bf z}^{[1]}}{\partial {\bf W}^{[1]}}= {\bf a}^{[0]T} \in {\mathbb R}^{ {1}\times n^{[0]}}$

有
$\tag{30} \begin{aligned} d{\bf W}^{[1]}&=d{\bf z}^{[1]}\frac{\partial{\bf z}^{[1]}}{\partial {\bf W}^{[1]}}\in {\mathbb R}^{n^{[1]}\times n^{[0]}}\\ &=d{\bf z}^{[1]}{\bf x}^T\\ d{\bf b}^{[1]}&=d{\bf z}^{[1]} \end{aligned}$

(2) 多个样本时的矩阵表示

下面我们将上面表达推广到 $m$ 个样本的情况。，如图3所示。

在这里插入图片描述

图3 $m$个样本的2层前馈NN反向传播模型

代价函数
对于 $m$ 个样本，我们定义代价函数为
$\tag{31} \begin{aligned} J&=\frac{1}{m}\sum_{i=1}^{m}\ell(y,\hat y)\\ &=-\frac{1}{m}\sum_{i=1}^{m}[y_i\log \hat y_i+(1- y_i)\log(1-\hat y_i)] \end{aligned}$ 我们把 $m$ 个样本表示成矩阵形式，有
$\tag{32} {\bf y}=[y_1,y_2,\ldots,y_m]\in {\mathbb R}^{n^{[2]}\times m}\\ {\bf A}^{[2]}=\left[{\bf a}^{[2]}_1,{\bf a}^{[2]}_2,\ldots,{\bf a}^{[2]}_m\right]\in {\mathbb R}^{n^{[2]}\times m}$ 因此，可以得到
$\tag{33} d{\bf A}^{[2]}=\frac{dJ}{d{\bf A}^{[2]}}=\left[d{\bf a}^{[2]}_1,d{\bf a}^{[2]}_2,\ldots,d{\bf a}^{[2]}_m\right]\in {\mathbb R}^{n^{[2]}\times m}$ 由于
$\tag{34} d{ \bf a}^{[2]}_i=-\frac{y_i}{ {\bf a}^{[2]}_i}+\frac{1-y_i}{1-{ \bf a}^{[2]}_i}$ 这里考虑Sigmoid函数，即 $\bf a}^{[2]}_i=\sigma({\bf z}^{[2]}_i)$ ，因此有
$\tag{35} \frac{d{ \bf a}^{[2]}_i}{d{ \bf z}^{[2]}_i}={\bf a}^{[2]}_i(1-{ \bf a}^{[2]}_i)$ 由此，得到
$\tag{36} d{ \bf z}^{[2]}_i=d{\bf a}^{[2]}_i \frac{d{\bf a}^{[2]}_i}{d{ \bf z}^{[2]}_i}={\bf a}^{[2]}_i-y_i.$ 因此，有
$\tag{37} \begin{aligned} d{ \bf Z}^{[2]}&=d{\bf A}^{[2]} \frac{d{\bf A}^{[2]}}{d{ \bf Z}^{[2]}}={\bf A}^{[2]}-{\bf y}\\ &=\left[{\bf z}^{[2]}_1,{\bf z}^{[2]}_2,\ldots,{\bf z}^{[2]}_m\right]\in {\mathbb R}^{n^{[2]}\times m} \end{aligned}$
进一步，由于
$d{\bf W}^{[2]}_i=d{\bf z}^{[2]}_i{\bf a}^{[1]T}$ 因此
$\tag{38} \begin{aligned} d{\bf W}^{[2]}&=\frac{1}{m}d{\bf Z}^{[2]}{\bf A}^{[1]T}\\ &=\frac{1}{m}\left[d{\bf z}^{[2]}_1,d{\bf z}^{[2]}_2,\ldots,d{\bf z}^{[2]}_m\right]\times \left[{\bf a}^{[1]T}_1,{\bf a}^{[1]T}_2,\ldots,{\bf a}^{[1]T}_m\right]^T\\ &=\frac{1}{m}\sum_{i=1}^{m}d{\bf z}^{[2]}_i{\bf a}^{[1]T}_i\in{\mathbb R}^{n^{[2]}\times n^{[1]} } \end{aligned}$
同样，由于
$d{\bf b}^{[2]}_i=d{\bf z}^{[2]}_i$ 因此
$\tag{39} \begin{aligned} d{\bf b}^{[2]}=\frac{1}{m}\sum_{i=1}^{m}d{\bf z}^{[2]}_i \end{aligned}$
进一步，由于
$\tag{40} \begin{aligned} d{ \bf A}^{[1]}&={\bf W}^{[2]T}d{\bf Z}^{[2]}\\ d{\bf Z}^{[1]}&=d{\bf A}^{[1]}.*g'^{[1]}({\bf Z}^{[1]}) \end{aligned}$ 我们可以得到
$\tag{41} \begin{aligned} d{\bf Z}^{[1]}&={\bf W}^{[2]T}d{\bf Z}^{[2]}.*g'^{[1]}({\bf Z}^{[1]}) \end{aligned}$ 故
$\tag{42} d{\bf W}^{[1]}=\frac{1}{m}d{\bf Z}^{[1]}{\bf A}^{[0]T}\\ d{\bf b}^{[1]}=\frac{1}{m}\sum_{i=1}^{m}d{\bf z}^{[1]}_i$

3、BP多层前馈网络

下面我们考虑 $L$ 层NN，输入个数为 $n^{[0]}$ ，第 $l$ 层神经元个数为 $n^{[l]}$ ，共有 $m$ 个数据样本的情况。

可以得到对于第 $l$ 层而言， $l=1,2,\ldots,L$ ，有
$\tag{43} {\bf W}^{[l]}=\left[\begin{aligned}{\bf w}^{[l]}_1\\ {\bf w}^{[l]}_2\\ \cdots \\ {\bf w}^{[l]}_{n^{[l]}} \end{aligned}\right]\in {\mathbb R}^{n^{[l]}\times n^{[(l-1)]}}, {\bf b}^{[l]}=\left[\begin{aligned}{b}^{[l]}_1\\ {b}^{[l]}_2\\ \cdots\\ {b}^{[l]}_{n^{[l]}} \end{aligned}\right]\in {\mathbb R}^{n^{[l]}\times 1}$ 其中，每一行对应当前层每个神经元的加权系数，因此，可以得到
$\tag{44} {\bf Z}^{[l]}={\bf W}^{[l]} {\bf A}^{[l-1]}+{\bf B}^{[l]}\in {\mathbb R}^{n^{[l]}\times m}$ 这里 ${\bf B}^{[l]}=[{\bf b}^{[l]},{\bf b}^{[l]},\ldots,{\bf b}^{[l]}]，则$ 当前层(第 $l$ 层）的输出为
$\tag{45} {\bf A}^{[l]}=g^{[l]}({\bf Z}^{[l]})\in {\mathbb R}^{n^{[l]}\times m}$ 这里的 $g^{l}(\cdot)$ 为第 $l$ 层的激活函数。参数更新则按照下式进行：

$\tag{46} \begin{aligned} d{ \bf Z}^{[l]}&=d{\bf A}^{[l]}.*g'^{[l]}({ \bf Z}^{[l]})\\ d{\bf W}^{[l]}&=\frac{1}{m}{d{\bf Z}^{[l]}} {\bf A}^{[l-1]T}\\ d{\bf b}^{[l]}&=\frac{1}{m}\sum_{i=1}^{m}d{\bf z}^{[l]}_i\\ d{\bf A}^{[l-1]}&={\bf W}^{[l]T}d{\bf Z}^{[l]}. \end{aligned}$