机器学习（4）--前向神经网络及BP算法

吴恩达ML课程课后总结，以供复习、总结、温故知新，也欢迎诸位评论讨论分享，一起探讨一起进步：

上一篇:机器学习（3）--正则化及python源码（附练习数据资源文件百度云）https://blog.csdn.net/qq_36187544/article/details/88060700

下一篇：机器学习（4）--前向神经网络及BP算法 python实现（附练习数据资源文件百度云）https://blog.csdn.net/qq_36187544/article/details/88300086

终于到较著名的算法了，BP算法--back propagation，反向传播算法。

之前的LR算法是一种典型的分类算法，但是当特征数量较大且有一定相关性时，使用LR算法求解复杂度急剧上升，比如100个变量，罗列所有二次项，比如X1X1,X1X2...，O(n^2) ，若是所有三次项复杂度就成了O(n^3)

总而言之，若是非线性的问题，再用LR算法求解很难找到最合适的函数模型。比如，在CV（计算机视觉）中，机器识别图片解码的数字矩阵，一张100*100像素的灰度图片(RGB有3万特征)就有一万个特征，这样对于LR算法负荷太重了

神经网络模拟自然界生物脑子的神经网络，由错综复杂的网络组成，神经元是其基本节点，通过突触连接，形成复杂网络。

下图是一个简单神经元模型，输入是X1,X2,X3，手动添加X0作为偏置单元（又叫截距），X与输出之间用θ作为参数（也叫权重），构造出函数g(z),可以用logistics Unit作为神经单元（或者叫激活函数），z=θTx=θ0×X0+θ1×X1+θ2×X2+θ3×X3。当然也可用其他的作为神经元。通常令偏置单元为1

神经网络可以形如下图，x1,x2,x3是输入层，而h(x)是输出层，除此之外其余所有层为中间层（隐藏层）：

通过这种结构可以发现，第二层是第一层的函数结果，而第三层又是第二层的函数结果，这样就让变量可以是非线性关系，从而得到更加优化的结果。

如果想让神经网络有一个多元输出，可以让神经网络输出多个，下图有4个输出，可以定义[1,0,0,0]是一种输出，[0,1,0,0]是另一种等，若只有一个输出神经元，则属于二分类。

接下来的内容，就是如何实现神经网络：

下图是代价函数的表达，一个是逻辑回归的代价函数，一个是神经网络的代价函数，K表示输出单元的数量（二分类问题K=1），m表示输入的特征数量，sl是每层网络的神经元数量，如s1表示输入层神经元个数(不包括偏置单元)。在算式最后3个求和Σ中，这一项相当于正则化项，有sl,s(l+1)即两层神经元之间对应关系，正则化项所以从j=1开始而不是从0，同逻辑回归中θ0的处理一样。L表示神经网络层数（包括输入层和输出层）