卷积神经网络（五）：SGD、adagrad与RMSprop，梯度下降法总结

其他 2018-10-30 16:19:39 阅读次数: 0

版权声明：转载请注明出处 https://blog.csdn.net/Fire_Light_/article/details/79556939

SGD

SGD即随机梯度下降法，在每次更新中，计算一个Minibatch的数据，然后以Minibatch中数据的总损失对神经网络各权值求梯度来进行权值更新，作为训练中的一个step。
更新方程为：

W_{t + 1, i} = W_{t, i} - η g_{t, i}

$W_{t+1,i}=W_{t,i}-ηg_{t,i}$
其中

W_{t, i}

$W_{t,i}$ 表示第t个step,第i个权值更新前的值，

g_{t, i}

$g_{t,i}$ 表示其在第t个step的更新梯度，η表示学习率

adagrad

Adagrad在每一个更新步骤中对于每一个模型参数Wi使用不同的学习速率ηi，

$\newcommand{\FS}[2]{\displaystyle\frac{#1}{#2}} W_{t+1,i}=W_{t,i}-\FS{η}{{\sqrt{\sum_{l=0}^tg_{l,i}^2+e}}}g_{t,i}$

可以看到，式中学习率会除以该权值历史所有梯度的平方根，由于梯度会累加得越来越大，也就可以达到衰减学习率的效果。
其中，e是一个平滑参数，为了使得分母不为0(通常e=1e−8)，另外，如果分母不开根号，算法性能会很糟糕。

其优点很明显，可以使得学习率越来越小，而且每个权值根据其梯度大小不同可以获得自适应的学习率调整。

其缺点在于需要计算参数梯度序列平方和，并且学习速率趋势会较快衰减达到一个非常小的值

RMSprop

为了缓解Adagrad学习率衰减过快，首先当然就是想到降低分子里的平方和项，RMSprop是通过将平方和变为加权平方和，即

r_{t ， i} = P r_{t - 1, i} + (1 - P) g_{t, i}^{2}

$r_{t，i}=Pr_{t-1,i}+(1-P)g_{t,i}^2$

也就是说平方和项随着时间不断衰减，过远的梯度将不影响学习率

此时更新公式变为

$\newcommand{\FS}[2]{\displaystyle\frac{#1}{#2}} W_{t+1,i}=W_{t,i}-\FS{n}{{\sqrt{r_{t,i}+e}}}g_{t,i}$

具体描述：

这里写图片描述

猜你喜欢

转载自blog.csdn.net/Fire_Light_/article/details/79556939

卷积神经网络（五）：SGD、adagrad与RMSprop，梯度下降法总结

各种优化方法：SGD、动量梯度下降法Momentum、Adagrad, RMSprop, Adam

神经网络优化方法总结：SGD，Momentum，AdaGrad，RMSProp，Adam

人工神经网络（五）梯度下降法

深度神经网络与梯度下降法

BP神经网络模型及梯度下降法 BP神经网络模型及梯度下降法

RMSprop梯度下降法

梯度下降法(GD，SGD)总结

优化算法：梯度下降算法BGD、随机梯度下降法SGD、小批量梯度下降MBGD、动量法、AdaGrad、RMSProp。避免过拟合/加速训练：Dropout、Batch Normalization

神经网络例程-梯度下降法更新权值

3.10 神经网络的梯度下降法-推导

神经网络之梯度下降法原理

梯度下降法求解BP神经网络的简单Demo

深度学习面试题03：改进版梯度下降法Adagrad、RMSprop、Momentum、Adam

神经网络的梯度消失/梯度爆炸问题、神经网络的过拟合问题、卷积网络输出大小计算/感受野计算、激活函数、sgd/momentum/rmsprop/adam优化算法

随机梯度下降法(SGD)

梯度下降法(SGD)原理

Mini_batch梯度下降法，指数加权平均，动量梯度下降法，RMSprop，以及Adam优化算法总结

深度学习入门笔记（二）————线性神经网络，delta学习规则，梯度下降法

为什么在神经网络里面使用梯度下降法对模型的权值矩阵进行调整

神经网络之梯度下降法和反向传播BP

手算梯度下降法，详解神经网络迭代训练过程

使用矩阵运算和梯度下降法实现神经网络的迭代训练

用Numpy搭建神经网络第二期：梯度下降法的实现

第二周神经网络基础 2.9 logistic回归中的梯度下降法

第二周神经网络基础 2.4 梯度下降法

神经网络入门-回归问题（梯度下降法）-python实现

3.9 神经网络的梯度下降法-深度学习-Stanford吴恩达教授

神经网络之梯度下降法python代码实现01

初学者都能懂的深度学习之神经网络（二）梯度下降法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)