转载请注明出处:http://blog.csdn.net/tyhj_sf/article/details/54983858
声明:
(1)该博文为个人学习总结,部分内容(包括数学公式)是来自书籍及网上的资料。具体引用的资料请看参考文献。具体的版本声明也参考原文献。
(2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客摘录过来的。如果某部分不小心侵犯了大家的版权,还望海涵,并联系本人删除或修改。
BP网络的学习算法
本文将以如下所示形式的多隐藏层网络结构为例分析BP神经。
BP网络学习算法的实质是使网络输出总误差函数E的达到最小,因此这是一个优化问题,BP算法具体就是采用“最速下降法”使总误差函数尽量达到最小。
这句话涉及到2个问题:
1.输出总误差函数的取值与网络的n个输入数据x1,x2…xn及网络所有的m个权值W1,W2…Wm有关,即误差函数=f(x1,x2…xn,W1,W2…Wm)。
2.最速下降法,即梯度下降算法,使权值调整量与误差的梯度下降成正比。就是说调整后权值使下次迭代计算的误差沿各权值的梯度方向是下降的,那么输出总误差是趋于减少的。此法可使网络输出误差达到局部极小,但是不能保证达到全局最小。
梯度下降算法
有关梯度下降算法的通俗理解,请参阅:http://www.jianshu.com/p/905a55b1b744
分类
1. BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本
每次迭代都需要把所有样本都送入,这样的好处是每次迭代都顾及了全部的样本,做的是全局最优化。需要注意的是权值的调整公式为wi(t)=wi(t-1)+ηΣ(δi*oi)/m+momentumΔwi(t-1), m为样本数,与SGD的权值调整公式是不一样的。
优点:降低了样本噪声对训练过程的影响,全局最优解;易于并行实现;。
缺点:如果面对数量巨大的样本量(如40万个),采取这种训练方式,所耗费的时间会非常长。
2. SGD(Stochastic gradient descent)随机梯度下降法:每次迭代随机使用一个样本
针对BGD算法训练速度过慢的缺点,提出了SGD算法,普通的BGD算法是每次迭代把所有样本都过一遍,每训练一个样本就把梯度更新一次。而SGD算法是从样本中随机抽出一个,训练后按梯度更新一次,然后再抽取一个,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。
权值的调整公式为wi(t)=wi(t-1)+ηδi*oi+momentumΔwi(t-1), m为样本数。
优点:训练速度快;
缺点:准确度下降,并不是全局最优;不易于并行实现。
3. MBGD(Mini-batch gradient descent)小批量梯度下降:每次迭代使用b个样本
SGD相对来说要快很多,但是也有存在问题,由于单个样本的训练可能会带来很多噪声,使得SGD并不是每次迭代都向着整体最优化方向,因此在刚开始训练时可能收敛得很快,但是训练一段时间后就会变得很慢。在此基础上又提出了小批量梯度下降法,它是每次从样本中随机抽取一小批进行训练,而不是一组。
公式推导
假设我们有一个固定样本集
这是一个(二分之一的)方差型误差函数。给定一个包含
以上关于
[注:通常权重衰减的计算并不使用偏置项
权重衰减参数
以上的误差函数经常被用于分类和回归问题。在分类问题中,我们用
我们的目标是针对参数
在实际应用中,要将参数进行随机初始化,而不是全部置为
梯度下降法中每一次迭代都按照如下公式对参数
其中
反向传播算法
有关bp算法的通俗理解,请参阅:http://www.open-open.com/lib/view/open1441541390219.html
现在以批量梯度下降算法的输出整体误差函数为例,来讲一下如何使用反向传播算法来计算
以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于
反向传播算法的思路如下:给定一个样例
- 进行前馈传导计算,利用前向传导公式,得到
L2,L3,… 直到输出层Lnl 的激活值。 - 对于第
nl 层(输出层)的每个输出神经元节点i ,我们根据以下公式计算残差(又称误差信号):δ(nl)i=∂∂z(nl)i12∥∥y−hW,b(x)∥∥2=−(yi−a(nl)i)⋅f′(z(nl)i) δ(nl)i=∂∂znliJ(W,b;x,y)=∂∂znli12∥∥y−hW,b(x)∥∥2=∂∂znli12∑j=1Snl(yj−a(nl)j)2=∂∂znli12∑j=1Snl(yj−f(z(nl)j))2=−(yi−f(z(nl)i))⋅f′(z(nl)i)=−(yi−a(nl)i)⋅f′(z(nl)i) - 对于第
nl−1 层(输出层)的每个输出神经元节点i ,我们根据以下公式计算残差:δ(nl−1)i=⎛⎝∑j=1SnlWnl−1jiδ(nl)j⎞⎠f′(znl−1i) δ(nl−1)i=∂∂znl−1iJ(W,b;x,y)=∂∂znl−1i12∥∥y−hW,b(x)∥∥2=∂∂znl−1i12∑j=1Snl(yj−a(nl)j)2=12∑j=1Snl∂∂znl−1i(yj−a(nl)j)2=12∑j=1Snl∂∂znl−1i(yj−f(z(nl)j))2=∑j=1Snl−(yj−f(z(nl)j))⋅∂∂z(nl−1)if(z(nl)j)=∑j=1Snl−(yj−f(z(nl)j))⋅f′(z(nl)j)⋅∂z(nl)j∂z(nl−1)i=∑j=1Snlδ(nl)j⋅∂z(nl)j∂znl−1i=∑j=1Snl⎛⎝δ(nl)j⋅∂∂znl−1i∑k=1Snl−1f(znl−1k)⋅Wnl−1jk⎞⎠=∑j=1Snlδ(nl)j⋅Wnl−1ji⋅f′(znl−1i)=⎛⎝∑j=1SnlWnl−1jiδ(nl)j⎞⎠f′(znl−1i) nl−1 与nl 的关系替换为l 与l+1 的关系,对l=nl−1,nl−2,nl−3,…,2 的各个层,第l 层的第i 个节点的残差计算方法如下:δ(l)i=⎛⎝∑j=1sl+1W(l)jiδ(l+1)j⎞⎠f′(z(l)i) - 计算我们需要的偏导数,计算方法如下:
∂∂W(l)ijJ(W,b;x,y)∂∂b(l)iJ(W,b;x,y)=a(l)jδ(l+1)i=δ(l+1)i.
实现中应注意:在以上的第2步和第3步中,我们需要为每一个
最后,我们用矩阵-向量表示法重写以上算法。(对矩阵不熟悉的同学可自行略过。但是是此表示法使用相当频繁,建议学学线性代数。)
我们使用“
那么,反向传播算法可表示为以下几个步骤:
- 进行前馈传导计算,利用前向传导公式,得到
L2,L3,… 直到输出层Lnl 的激活值。 - 对输出层(第
nl 层),计算:δ(nl)=−(y−a(nl))∙f′(z(nl)) - 对于
l=nl−1,nl−2,nl−3,…,2 的各层,计算:δ(l)=((W(l))Tδ(l+1))∙f′(z(l)) - 计算最终需要的偏导数值:
∇W(l)J(W,b;x,y)∇b(l)J(W,b;x,y)=δ(l+1)(a(l))T,=δ(l+1). - 更新权值:
W(l)ijb(l)i=W(l)ij−α∇W(l)J(W,b;x,y)=b(l)i−α∇b(l)J(W,b;x,y)
现在,我们可以重复梯度下降法的迭代步骤来减小误差函数
BP网络结构设计
输入量处理
通常输入变量无法直接获得或者不宜直接使用,需要进行一定的处理,常用方法有:数据归一化、傅里叶变换、小波变换、PCA进行降维。
隐藏层数的确定
单隐层的前馈网络可以映射所有的连续函数,只有当需要学习不连续函数时(如锯齿波等)才需要2个隐层。所以bp网络最多只需要2个隐层即可学习所有的函数。一般设计网络结构时,先用一个隐层,当网络性能达不到要求时再考虑增加一个隐层。
权值调整相关参数的设置
学习速率,即学习步长,范围在0.001~10之间。
如果权值参数调整时加入了阻尼项,则动量系数通常设置为0~0.9之间。
隐层节点数设计经验
1.隐层节点数必须小于N-1(其中N为训练样本数),否则,网络模型的系统误差与训练样本的特性无关而趋于零,即建立的网络模型过拟合没有泛化能力,也没有任何实用价值。同理可推得:输入层的节点数(变量数)必须小于N-1。
2.训练样本数必须多于网络模型的连接权数,一般为2~10倍,否则,样本必须分成几部分并采用“轮流训练”的方法才可能得到可靠的神经网络模型。
3.常用的确定隐层节点数的经验公式如下:
模型泛化能力的考虑
权值的总数体现了网络的信息容量,它决定了网络的逼近能力。参数太少则不足以表达样本润涵的规律,参数太多将陡增计算复杂度。
训练样本数p、给定的训练误差e,网络参数总数n之间满足的经验关系为:
p=n/e
参考资料
1.http://www.cnblogs.com/maybe2030/p/5089753.html?utm_source=tuicool&utm_medium=referral.
2.反向传导算法.
3.停下来思考下神经网络
4.BGD、SGD、MBGD详解