深度神经网络(DNN)反向传播算法(BP) 深度神经网络(DNN)反向传播算法(BP)

深度神经网络(DNN)反向传播算法(BP)

 

   1600174884   我们对DNN的模型和前向传播算法做了总结,这里我们更进一步,对DNN的反向传播算法(Back Propagation,BP)做一个总结。

1. DNN反向传播算法要解决的问题

    在了解DNN的反向传播算法前,我们先要知道DNN反向传播算法要解决的问题,也就是说,什么时候我们需要这个反向传播算法? 

    回到我们监督学习的一般问题,假设我们有m个训练样本:{(x1,y1),(x2,y2),...,(xm,ym)}{(x1,y1),(x2,y2),...,(xm,ym)},其中xx为输入向量,特征维度为n_inn_in,而yy为输出向量,特征维度为n_outn_out。我们需要利用这m个样本训练出一个模型,当有一个新的测试样本(xtest,?)(xtest,?)来到时, 我们可以预测ytestytest向量的输出。 

    如果我们采用DNN的模型,即我们使输入层有n_inn_in个神经元,而输出层有n_outn_out个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵WW,偏倚向量bb,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢?

    如果大家对传统的机器学习的算法优化过程熟悉的话,这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失,接着对这个损失函数进行优化求最小化的极值,对应的一系列线性系数矩阵WW,偏倚向量bb即为我们的最终结果。在DNN中,损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的,当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉,建议先阅读我之前写的

    对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。

    本篇使用了矩阵向量求导,如果你对这一块不熟悉,请先阅读下我写的

2. DNN反向传播算法的基本思路

    在进行DNN反向传播算法前,我们需要选择一个损失函数,来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问:训练样本计算出的输出是怎么得来的?这 个输出是随机选择一系列W,bW,b,用我们上一节的前向传播算法计算出来的。即通过一系列的计算:al=σ(zl)=σ(Wlal1+bl)al=σ(zl)=σ(Wlal−1+bl)。计算到输出层第LL层对应的aLaL即为前向传播算法计算出来的输出。

    回到损失函数,DNN可选择的损失函数有不少,为了专注算法,这里我们使用最常见的均方差来度量损失。即对于每个样本,我们期望最小化下式:

J(W,b,x,y)=12||aLy||22J(W,b,x,y)=12||aL−y||22

    其中,aLaL和yy为特征维度为n_outn_out的向量,而||S||2||S||2为S的L2范数。

    损失函数有了,现在我们开始用梯度下降法迭代求解每一层的W,bW,b。

    首先是输出层第LL层。注意到输出层的W,bW,b满足下式:

aL=σ(zL)=σ(WLaL1+bL)aL=σ(zL)=σ(WLaL−1+bL)

    这样对于输出层的参数,我们的损失函数变为:

J(W,b,x,y)=12||aLy||22=12||σ(WLaL1+bL)y||22J(W,b,x,y)=12||aL−y||22=12||σ(WLaL−1+bL)−y||22

    这样求解W,bW,b的梯度就简单了:

J(W,b,x,y)WL=[(aLy)σ(zL)](aL1)T∂J(W,b,x,y)∂WL=[(aL−y)⊙σ′(zL)](aL−1)T
J(W,b,x,y)bL=(aLy)σ(zL)∂J(W,b,x,y)∂bL=(aL−y)⊙σ′(zL)

    注意上式中有一个符号⊙,它代表Hadamard积,对于两个维度相同的向量Aa1,a2,...anTA(a1,a2,...an)T和Bb1,b2,...bnTB(b1,b2,...bn)T,则AB=(a1b1,a2b2,...anbn)TA⊙B=(a1b1,a2b2,...anbn)T。

    我们注意到在求解输出层的W,bW,b的时候,有中间依赖部分J(W,b,x,y)zL∂J(W,b,x,y)∂zL,因此我们可以把公共的部分即对zLzL先算出来,记为:

δL=J(W,b,x,y)zL=(aLy)σ(zL)δL=∂J(W,b,x,y)∂zL=(aL−y)⊙σ′(zL)

    现在我们终于把输出层的梯度算出来了,那么如何计算上一层L1L−1层的梯度,上上层L2L−2层的梯度呢?这里我们需要一步步的递推,注意到对于第ll层的未激活输出zlzl,它的梯度可以表示为:

δl=J(W,b,x,y)zl=(zLzL1zL1zL2...zl+1zl)TJ(W,b,x,y)zLδl=∂J(W,b,x,y)∂zl=(∂zL∂zL−1∂zL−1∂zL−2...∂zl+1∂zl)T∂J(W,b,x,y)∂zL

    如果我们可以依次计算出第ll层的δlδl,则该层的Wl,blWl,bl很容易计算?为什么呢?注意到根据前向传播算法,我们有:

zl=Wlal1+blzl=Wlal−1+bl

    所以根据上式我们可以很方便的计算出第l层的Wl,blWl,bl的梯度如下:

J(W,b,x,y)Wl=δl(al1)T∂J(W,b,x,y)∂Wl=δl(al−1)T
J(W,b,x,y)bl=δl∂J(W,b,x,y)∂bl=δl

    其中,第一个式子的推导可以参考中第三节的最后一个公式。

    那么现在问题的关键就是要求出δlδl了。这里我们用数学归纳法,第LL层的δLδL上面我们已经求出, 假设第l+1l+1层的δl+1δl+1已经求出来了,那么我们如何求出第ll层的δlδl呢?我们注意到:

δl=J(W,b,x,y)zl=(zl+1zl)TJ(W,b,x,y)zl+1=(zl+1zl)Tδl+1δl=∂J(W,b,x,y)∂zl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=(∂zl+1∂zl)Tδl+1

    可见,用归纳法递推δl+1δl+1和δlδl的关键在于求解zl+1zl∂zl+1∂zl。

    而zl+1zl+1和zlzl的关系其实很容易找出:

zl+1=Wl+1al+bl+1=Wl+1σ(zl)+bl+1zl+1=Wl+1al+bl+1=Wl+1σ(zl)+bl+1

    这样很容易求出:

zl+1zl=Wl+1diag(σ(zl))∂zl+1∂zl=Wl+1diag(σ′(zl))

    将上式带入上面δl+1δl+1和δlδl关系式我们得到:

δl=(zl+1zl)TJ(W,b,x,y)zl+1=diag(σ(zl))(Wl+1)Tδl+1=(Wl+1)Tδl+1σ(zl)δl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=diag(σ′(zl))(Wl+1)Tδl+1=(Wl+1)Tδl+1⊙σ′(zl)

    现在我们得到了δlδl的递推关系式,只要求出了某一层的δlδl,求解Wl,blWl,bl的对应梯度就很简单的。

3. DNN反向传播算法过程

    现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量(Batch),小批量(mini-Batch),随机三个变种,为了简化描述,这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

    输入: 总层数L,以及各隐藏层与输出层的神经元个数,激活函数,损失函数,迭代步长αα,最大迭代次数MAX与停止迭代阈值ϵϵ,输入的m个训练样本{(x1,y1),(x2,y2),...,(xm,ym)}{(x1,y1),(x2,y2),...,(xm,ym)}

    输出:各隐藏层与输出层的线性关系系数矩阵WW和偏倚向量bb

    1) 初始化各隐藏层与输出层的线性关系系数矩阵WW和偏倚向量bb的值为一个随机值。

      2)for iter to 1 to MAX:

    2-1) for i =1 to m:

      a) 将DNN输入a1a1设置为xixi

      b) for ll=2 to L,进行前向传播算法计算ai,l=σ(zi,l)=σ(Wlai,l1+bl)ai,l=σ(zi,l)=σ(Wlai,l−1+bl)

      c) 通过损失函数计算输出层的δi,Lδi,L

      d) for ll= L-1 to 2, 进行反向传播算法计算δi,l=(Wl+1)Tδi,l+1σ(zi,l)δi,l=(Wl+1)Tδi,l+1⊙σ′(zi,l)

    2-2) for ll = 2 to L,更新第ll层的Wl,blWl,bl:

Wl=Wlαi=1mδi,l(ai,l1)TWl=Wl−α∑i=1mδi,l(ai,l−1)T
bl=blαi=1mδi,lbl=bl−α∑i=1mδi,l

    2-3) 如果所有WbW,b的变化值都小于停止迭代阈值ϵϵ,则跳出迭代循环到步骤3。

    3) 输出各隐藏层与输出层的线性关系系数矩阵WW和偏倚向量bb。

4. DNN反向传播算法小结

    有了DNN反向传播算法,我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多,矩阵运算量也很大,直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法,我们在下一篇讲。

(欢迎转载,转载请注明出处。欢迎沟通交流: [email protected]) 

   1600174884   我们对DNN的模型和前向传播算法做了总结,这里我们更进一步,对DNN的反向传播算法(Back Propagation,BP)做一个总结。

1. DNN反向传播算法要解决的问题

    在了解DNN的反向传播算法前,我们先要知道DNN反向传播算法要解决的问题,也就是说,什么时候我们需要这个反向传播算法? 

    回到我们监督学习的一般问题,假设我们有m个训练样本:{(x1,y1),(x2,y2),...,(xm,ym)}{(x1,y1),(x2,y2),...,(xm,ym)},其中xx为输入向量,特征维度为n_inn_in,而yy为输出向量,特征维度为n_outn_out。我们需要利用这m个样本训练出一个模型,当有一个新的测试样本(xtest,?)(xtest,?)来到时, 我们可以预测ytestytest向量的输出。 

    如果我们采用DNN的模型,即我们使输入层有n_inn_in个神经元,而输出层有n_outn_out个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵WW,偏倚向量bb,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢?

    如果大家对传统的机器学习的算法优化过程熟悉的话,这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失,接着对这个损失函数进行优化求最小化的极值,对应的一系列线性系数矩阵WW,偏倚向量bb即为我们的最终结果。在DNN中,损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的,当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉,建议先阅读我之前写的

    对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。

    本篇使用了矩阵向量求导,如果你对这一块不熟悉,请先阅读下我写的

2. DNN反向传播算法的基本思路

    在进行DNN反向传播算法前,我们需要选择一个损失函数,来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问:训练样本计算出的输出是怎么得来的?这 个输出是随机选择一系列W,bW,b,用我们上一节的前向传播算法计算出来的。即通过一系列的计算:al=σ(zl)=σ(Wlal1+bl)al=σ(zl)=σ(Wlal−1+bl)。计算到输出层第LL层对应的aLaL即为前向传播算法计算出来的输出。

    回到损失函数,DNN可选择的损失函数有不少,为了专注算法,这里我们使用最常见的均方差来度量损失。即对于每个样本,我们期望最小化下式:

J(W,b,x,y)=12||aLy||22J(W,b,x,y)=12||aL−y||22

    其中,aLaL和yy为特征维度为n_outn_out的向量,而||S||2||S||2为S的L2范数。

    损失函数有了,现在我们开始用梯度下降法迭代求解每一层的W,bW,b。

    首先是输出层第LL层。注意到输出层的W,bW,b满足下式:

aL=σ(zL)=σ(WLaL1+bL)aL=σ(zL)=σ(WLaL−1+bL)

    这样对于输出层的参数,我们的损失函数变为:

J(W,b,x,y)=12||aLy||22=12||σ(WLaL1+bL)y||22J(W,b,x,y)=12||aL−y||22=12||σ(WLaL−1+bL)−y||22

    这样求解W,bW,b的梯度就简单了:

J(W,b,x,y)WL=[(aLy)σ(zL)](aL1)T∂J(W,b,x,y)∂WL=[(aL−y)⊙σ′(zL)](aL−1)T
J(W,b,x,y)bL=(aLy)σ(zL)∂J(W,b,x,y)∂bL=(aL−y)⊙σ′(zL)

    注意上式中有一个符号⊙,它代表Hadamard积,对于两个维度相同的向量Aa1,a2,...anTA(a1,a2,...an)T和Bb1,b2,...bnTB(b1,b2,...bn)T,则AB=(a1b1,a2b2,...anbn)TA⊙B=(a1b1,a2b2,...anbn)T。

    我们注意到在求解输出层的W,bW,b的时候,有中间依赖部分J(W,b,x,y)zL∂J(W,b,x,y)∂zL,因此我们可以把公共的部分即对zLzL先算出来,记为:

δL=J(W,b,x,y)zL=(aLy)σ(zL)δL=∂J(W,b,x,y)∂zL=(aL−y)⊙σ′(zL)

    现在我们终于把输出层的梯度算出来了,那么如何计算上一层L1L−1层的梯度,上上层L2L−2层的梯度呢?这里我们需要一步步的递推,注意到对于第ll层的未激活输出zlzl,它的梯度可以表示为:

δl=J(W,b,x,y)zl=(zLzL1zL1zL2...zl+1zl)TJ(W,b,x,y)zLδl=∂J(W,b,x,y)∂zl=(∂zL∂zL−1∂zL−1∂zL−2...∂zl+1∂zl)T∂J(W,b,x,y)∂zL

    如果我们可以依次计算出第ll层的δlδl,则该层的Wl,blWl,bl很容易计算?为什么呢?注意到根据前向传播算法,我们有:

zl=Wlal1+blzl=Wlal−1+bl

    所以根据上式我们可以很方便的计算出第l层的Wl,blWl,bl的梯度如下:

J(W,b,x,y)Wl=δl(al1)T∂J(W,b,x,y)∂Wl=δl(al−1)T
J(W,b,x,y)bl=δl∂J(W,b,x,y)∂bl=δl

    其中,第一个式子的推导可以参考中第三节的最后一个公式。

    那么现在问题的关键就是要求出δlδl了。这里我们用数学归纳法,第LL层的δLδL上面我们已经求出, 假设第l+1l+1层的δl+1δl+1已经求出来了,那么我们如何求出第ll层的δlδl呢?我们注意到:

δl=J(W,b,x,y)zl=(zl+1zl)TJ(W,b,x,y)zl+1=(zl+1zl)Tδl+1δl=∂J(W,b,x,y)∂zl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=(∂zl+1∂zl)Tδl+1

    可见,用归纳法递推δl+1δl+1和δlδl的关键在于求解zl+1zl∂zl+1∂zl。

    而zl+1zl+1和zlzl的关系其实很容易找出:

zl+1=Wl+1al+bl+1=Wl+1σ(zl)+bl+1zl+1=Wl+1al+bl+1=Wl+1σ(zl)+bl+1

    这样很容易求出:

zl+1zl=Wl+1diag(σ(zl))∂zl+1∂zl=Wl+1diag(σ′(zl))

    将上式带入上面δl+1δl+1和δlδl关系式我们得到:

δl=(zl+1zl)TJ(W,b,x,y)zl+1=diag(σ(zl))(Wl+1)Tδl+1=(Wl+1)Tδl+1σ(zl)δl=(∂zl+1∂zl)T∂J(W,b,x,y)∂zl+1=diag(σ′(zl))(Wl+1)Tδl+1=(Wl+1)Tδl+1⊙σ′(zl)

    现在我们得到了δlδl的递推关系式,只要求出了某一层的δlδl,求解Wl,blWl,bl的对应梯度就很简单的。

3. DNN反向传播算法过程

    现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量(Batch),小批量(mini-Batch),随机三个变种,为了简化描述,这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

    输入: 总层数L,以及各隐藏层与输出层的神经元个数,激活函数,损失函数,迭代步长αα,最大迭代次数MAX与停止迭代阈值ϵϵ,输入的m个训练样本{(x1,y1),(x2,y2),...,(xm,ym)}{(x1,y1),(x2,y2),...,(xm,ym)}

    输出:各隐藏层与输出层的线性关系系数矩阵WW和偏倚向量bb

    1) 初始化各隐藏层与输出层的线性关系系数矩阵WW和偏倚向量bb的值为一个随机值。

      2)for iter to 1 to MAX:

    2-1) for i =1 to m:

      a) 将DNN输入a1a1设置为xixi

      b) for ll=2 to L,进行前向传播算法计算ai,l=σ(zi,l)=σ(Wlai,l1+bl)ai,l=σ(zi,l)=σ(Wlai,l−1+bl)

      c) 通过损失函数计算输出层的δi,Lδi,L

      d) for ll= L-1 to 2, 进行反向传播算法计算δi,l=(Wl+1)Tδi,l+1σ(zi,l)δi,l=(Wl+1)Tδi,l+1⊙σ′(zi,l)

    2-2) for ll = 2 to L,更新第ll层的Wl,blWl,bl:

Wl=Wlαi=1mδi,l(ai,l1)TWl=Wl−α∑i=1mδi,l(ai,l−1)T
bl=blαi=1mδi,lbl=bl−α∑i=1mδi,l

    2-3) 如果所有WbW,b的变化值都小于停止迭代阈值ϵϵ,则跳出迭代循环到步骤3。

    3) 输出各隐藏层与输出层的线性关系系数矩阵WW和偏倚向量bb。

4. DNN反向传播算法小结

    有了DNN反向传播算法,我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多,矩阵运算量也很大,直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法,我们在下一篇讲。

(欢迎转载,转载请注明出处。欢迎沟通交流: [email protected]) 

猜你喜欢

转载自www.cnblogs.com/gyuy990/p/12057789.html