深度神经网络（DNN）反向传播算法(BP)

　　　1600174884 我们对DNN的模型和前向传播算法做了总结，这里我们更进一步，对DNN的反向传播算法（Back Propagation，BP）做一个总结。

1. DNN反向传播算法要解决的问题

　　　　在了解DNN的反向传播算法前，我们先要知道DNN反向传播算法要解决的问题，也就是说，什么时候我们需要这个反向传播算法？　

　　　　回到我们监督学习的一般问题，假设我们有m个训练样本：

　　　　如果我们采用DNN的模型，即我们使输入层有

　　　　如果大家对传统的机器学习的算法优化过程熟悉的话，这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失，接着对这个损失函数进行优化求最小化的极值，对应的一系列线性系数矩阵

　　　　对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。

　　　　本篇使用了矩阵向量求导，如果你对这一块不熟悉，请先阅读下我写的

2. DNN反向传播算法的基本思路

　　　　在进行DNN反向传播算法前，我们需要选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问：训练样本计算出的输出是怎么得来的？这个输出是随机选择一系列

　　　　回到损失函数，DNN可选择的损失函数有不少，为了专注算法，这里我们使用最常见的均方差来度量损失。即对于每个样本，我们期望最小化下式：

J (W, b, x, y) = 1 2 | | a L - y | | 2 2

　　　　其中，

　　　　损失函数有了，现在我们开始用梯度下降法迭代求解每一层的

　　　　首先是输出层第

a L = σ (z L) = σ (W L a L - 1 + b L)

　　　　这样对于输出层的参数，我们的损失函数变为：

J (W, b, x, y) = 1 2 | | a L - y | | 2 2 = 1 2 | | σ

　　　　这样求解

\partial J ( W , b , x , y ) \partial W L = [ ( a L - y ) ⊙ σ ' ( z L ) ] ( a

\partial J ( W , b , x , y ) \partial b L = ( a L - y ) ⊙ σ ' ( z L )

　　　　注意上式中有一个符号

　　　　我们注意到在求解输出层的

δ L = \partial J ( W , b , x , y ) \partial z L = ( a L - y ) ⊙ σ ' ( z L )

　　　　现在我们终于把输出层的梯度算出来了，那么如何计算上一层

δ l = \partial J ( W , b , x , y ) \partial z l = ( \partial z L \partial z L - 1 \partial z

　　　　如果我们可以依次计算出第

z l = W l a l - 1 + b l

　　　　所以根据上式我们可以很方便的计算出第l层的

\partial J ( W , b , x , y ) \partial W l = δ l ( a l - 1 ) T

\partial J ( W , b , x , y ) \partial b l = δ l

　　　　其中，第一个式子的推导可以参考中第三节的最后一个公式。

　　　　那么现在问题的关键就是要求出

δ l = \partial J ( W , b , x , y ) \partial z l = ( \partial z l + 1 \partial z l )

　　　　可见，用归纳法递推

　　　　而

z l + 1 = W l + 1 a l + b l + 1 = W l + 1 σ (z l) + b

　　　　这样很容易求出：

\partial z l + 1 \partial z l = W l + 1 d i a g ( σ ' ( z l ) )

　　　　将上式带入上面

δ l = (\partial z l + 1 \partial z l ) T \partial J ( W , b , x , y ) \partial z

　　　　现在我们得到了

3. DNN反向传播算法过程

　　　　现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量（Batch），小批量(mini-Batch)，随机三个变种，为了简化描述，这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

　　　　输入: 总层数L，以及各隐藏层与输出层的神经元个数，激活函数，损失函数，迭代步长

　　　　输出：各隐藏层与输出层的线性关系系数矩阵

　　　　1) 初始化各隐藏层与输出层的线性关系系数矩阵

　　　 2）for iter to 1 to MAX：

　　　　2-1) for i =1 to m：

　　　　　　a) 将DNN输入

　　　　　　b) for

　　　　　　c) 通过损失函数计算输出层的

　　　　　　d) for

　　　　2-2) for

W l = W l - α \sum i = 1 m δ i, l (a i, l - 1) T

b l = b l - α \sum i = 1 m δ i, l

　　　　2-3) 如果所有

　　　　3）输出各隐藏层与输出层的线性关系系数矩阵

4. DNN反向传播算法小结

　　　　有了DNN反向传播算法，我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多，矩阵运算量也很大，直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法，我们在下一篇讲。

（欢迎转载，转载请注明出处。欢迎沟通交流： [email protected]）