机器学习算法--BP神经网络 - 代码天地

机器学习算法--BP神经网络

企业开发 2018-08-19 05:14:14 阅读次数: 0

1、神经网络model

先介绍个三层的神经网络，如下图所示

输入层（input layer）有三个units（ ${x_0}$ 为补上的bias，通常设为1）

$a_i^{(j)}$ 表示第j层的第i个激励，也称为为单元unit

${\theta ^{(j)}}$ 为第j层到第j+1层映射的权重矩阵，就是每条边的权重

所以可以得到：

隐含层：
$a_1^{(2)} = g(\theta _{10}^{(1)}{x_0} + \theta _{11}^{(1)}{x_1} + \theta _{12}^{(1)}{x_2} + \theta _{13}^{(1)}{x_3})$
$a_2^{(2)} = g(\theta _{20}^{(1)}{x_0} + \theta _{21}^{(1)}{x_1} + \theta _{22}^{(1)}{x_2} + \theta _{23}^{(1)}{x_3})$
$a_3^{(2)} = g(\theta _{30}^{(1)}{x_0} + \theta _{31}^{(1)}{x_1} + \theta _{32}^{(1)}{x_2} + \theta _{33}^{(1)}{x_3})$

输出层
${h_\theta }(x) = a_1^{(3)} = g(\theta _{10}^{(2)}a_0^{(2)} + \theta _{11}^{(2)}a_1^{(2)} + \theta _{12}^{(2)}a_2^{(2)} + \theta _{13}^{(2)}a_3^{(2)})$ 其中，S型函数 $g(z) = \frac{1}{{1 + {e^{ - z}}}}$ ，也称为激励函数

可以看出 ${\theta ^{(1)}}$ 为3x4的矩阵， ${\theta ^{(2)}}$ 为1x4的矩阵

${\theta ^{(j)}}$ ==》j+1的单元数x（j层的单元数+1）

2、代价函数

假设最后输出的 ${h_\Theta }(x) \in {R^K}$ ，即代表输出层有K个单元

$J(\Theta ) = - \frac{1}{m}\sum\limits_{i = 1}^m {\sum\limits_{k = 1}^K {[y_k^{(i)}\log {{({h_\Theta }({x^{(i)}}))}k}} } + (1 - y_k^{(i)})\log {(1 - {h\Theta }({x^{(i)}}))_k}]$ 其中， ${({h_\Theta }(x))_i}$ 代表第i个单元输出

与逻辑回归的代价函数 $J(\theta ) = - \frac{1}{m}\sum\limits_{i = 1}^m {[{y^{(i)}}\log ({h_\theta }({x^{(i)}}) + (1 - } {y^{(i)}})\log (1 - {h_\theta }({x^{(i)}})]$ 差不多，就是累加上每个输出（共有K个输出）

3、正则化

L-->所有层的个数， ${S_l}$ -->第l层unit的个数

正则化后的代价函数为

$\theta$ 共有L-1层，然后是累加对应每一层的theta矩阵，注意不包含加上偏置项对应的theta(0)

4、反向传播BP

上面正向传播可以计算得到J(θ),使用梯度下降法还需要求它的梯度

BP反向传播的目的就是求代价函数的梯度

假设4层的神经网络, $\delta _{\text{j}}^{(l)}$ 记为-->l层第j个单元的误差

$\delta _{\text{j}}^{(4)} = a_j^{(4)} - {y_i}$ 《===》 ${\delta ^{(4)}} = {a^{(4)}} - y$ （向量化）

${\delta ^{(3)}} = {({\theta ^{(3)}})^T}{\delta ^{(4)}}.*{g^}({a^{(3)}})$

${\delta ^{(2)}} = {({\theta ^{(2)}})^T}{\delta ^{(3)}}.*{g^}({a^{(2)}})$

没有 ${\delta ^{(1)}}$ ，因为对于输入没有误差

因为S型函数 ${\text{g(z)}}$ 的导数为： ${g^}(z){\text{ = g(z)(1 - g(z))}}$ ，所以上面的 ${g^}({a^{(3)}})$ 和 ${g^}({a^{(2)}})$ 可以在前向传播中计算出来

反向传播计算梯度的过程为：

$\Delta _{ij}^{(l)} = 0$ （ $\Delta$ 是大写的 $\delta$ ）

for i=1-m:
- ${a^{(1)}} = {x^{(i)}}$
-正向传播计算 ${a^{(l)}}$ （l=2,3,4...L）
-反向计算 ${\delta ^{(L)}}$ 、 ${\delta ^{(L - 1)}}$ ... ${\delta ^{(2)}}$ ；
- $\Delta _{ij}^{(l)} = \Delta _{ij}^{(l)} + a_j^{(l)}{\delta ^{(l + 1)}}$
- $D_{ij}^{(l)} = \frac{1}{m}\Delta _{ij}^{(l)} + \lambda \theta _{ij}^l\begin{array}{c} {}& {(j \ne 0)} \end{array}$
$D_{ij}^{(l)} = \frac{1}{m}\Delta _{ij}^{(l)} + \lambda \theta _{ij}^lj = 0\begin{array}{c} {}& {j = 0} \end{array}$

最后 $\frac{{\partial J(\Theta )}}{{\partial \Theta {ij}^{(l)}}} = D{ij}^{(l)}$ ，即得到代价函数的梯度。

5、BP可以求梯度的原因

实际是利用了链式求导法则

因为下一层的单元利用上一层的单元作为输入进行计算

大体的推导过程如下，最终我们是想预测函数与已知的y非常接近，求均方差的梯度沿着此梯度方向可使代价函数最小化。可对照上面求梯度的过程。

求误差更详细的推导过程：

6、梯度检查

检查利用BP求的梯度是否正确，

利用导数的定义验证： $\frac{{dJ(\theta )}}{{d\theta }} \approx \frac{{J(\theta + \varepsilon ) - J(\theta - \varepsilon )}}{{2\varepsilon }}$

求出来的数值梯度应该与BP求出的梯度非常接近

验证BP正确后就不需要再执行验证梯度的算法了。

7、权重的随机初始化

神经网络不能像逻辑回归那样初始化theta为0,因为若是每条边的权重都为0，每个神经元都是相同的输出，在反向传播中也会得到同样的梯度，最终只会预测一种结果。

所以应该初始化为接近0的数。

参考文章：https://github.com/lawlite19/MachineLearning_Python

猜你喜欢

转载自blog.csdn.net/rongpeisheng666/article/details/81806591

机器学习算法--BP神经网络

机器学习——神经网络累积BP算法

[DataAnalysis]机器学习算法——BP神经网络原理简介

【机器学习算法推导】BP神经网络

机器学习算法之----BP神经网络

机器学习（4）--前向神经网络及BP算法

从 0 开始机器学习 - 神经网络反向 BP 算法！

【机器学习算法】神经网络与深度学习-3 BP神经网络

简单易学的机器学习算法——神经网络之BP神经网络

机器学习之BP神经网络

机器学习：BP神经网络

神经网络学习(三)——BP神经网络算法

BP神经网络学习算法原理

BP神经网络模型与学习算法

BP神经网络算法学习

神经网络、BP算法、深度学习

《机器学习(周志华)》笔记--神经网络（4）--误差逆传播算法(BP)：BP算法、BP算法推导

【机器学习算法】神经网络与深度学习-2 由感知机到BP神经网络的内容

机器学习练习----神经网络的标准BP算法（误差逆传播算法）

【机器学习】 BP 神经网络算法的原理（数学公式+算法实现）

吴恩达机器学习（五）神经网络 2/2 —— 反向传播算法（BP-神经网络）

【神经网络】BP算法

神经网络BP算法

【机器学习算法】神经网络和深度学习-4 重要的BP网络使用总结，了解BP神经网络的魅力

机器学习十大算法之bp神经网络

吴恩达|机器学习作业4.0神经网络反向传播（BP算法）

机器学习西瓜书笔记：神经网络：BP算法公式推导

BP神经网络学习

机器学习：基于MNIST的BP神经网络

机器学习系列2 BP神经网络＋代码实现

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)