对随机梯度下降+mini-batch的理解 - 代码天地

对随机梯度下降+mini-batch的理解

其他 2020-03-01 18:54:15 阅读次数: 0

随机梯度下降的每轮训练包含了多次迭代，每次迭代将训练数据随机分成M份，每次迭代选取一份进行训练，该份数据被称为mini-batch，mini-batch大小可在1 ~ N之间，若为1，则退化为在线学习，训练过程如下。

那mini-bath为何会加速训练？这里我给出一个具有启发式的见解，不见的有理论支撑，但可能有助于理解。如下图

假设我们的训练集只有4个猫的图片，其中不相同的图片只有1对，可能比较极端，但是实际的样本一定程度上也会存在这个问题，假设mini-batch大小为2，可能仅需要第2、3副图片便可完成对模型的训练，因为这两幅图足以反映整个数据集中样本的多样性和差异性，再通过微调学习率，可能仅利用50%的计算量便可使得模型收敛。

在实际的工业级别的模型训练过程中，一轮训练耗时很多，将训练集分为多个mini-batch，通过有限的训练轮数，可能提早穷尽数据集的多样性，使得模型尽早收敛。

发布了94 篇原创文章 · 获赞 31 · 访问量 9万+

私信关注

猜你喜欢

转载自blog.csdn.net/gaoxueyi551/article/details/104339241

对随机梯度下降+mini-batch的理解

batch、随机、Mini-batch梯度下降

mini-batch梯度下降

批梯度下降法(Batch Gradient Descent )，小批梯度下降 (Mini-Batch GD)，随机梯度下降 (Stochastic GD)

机器学习：梯度下降(GD)，随机梯度下降(SGD), 小批量随机梯度下降(Mini-batch SGD)

batch梯度下降法、mini-batch、SGD

深度学习优化函数详解（3）-- mini-batch SGD 小批量随机梯度下降

神经网络优化算法-mini-batch、Adam、momentum、随机梯度下降

梯度下降法(Gradient Descent)优化函数的详解（3）小批量随机梯度下降法（mini-batch SGD ）

深度学习笔记：2.1|2.2 mini-batch梯度下降法及其理解

Mini-batch 梯度下降与Tensorflow中的应用

深度学习中的三种梯度下降方式：批量（batch），随机（stochastic），小批量（mini-batch）

mini-batch的理解

梯度下降：全梯度下降算法(FG)、随机梯度下降算法(SG)、小批量梯度下降算法(mini-batch)、随机平均梯度下降算法(SAG)。梯度下降法算法比较和进一步优化。

吴恩达机器学习笔记60-随机梯度下降算法、小批量梯度下降算法（Stochastic Gradient Descent& Mini-Batch Gradient Descent）

局部最优、梯度消失、鞍点、海森矩阵(Hessian Matric)、批梯度下降算法(btach批梯度下降法BGD、小批量梯度下降法Mini-Batch GD、随机梯度下降法SGD)

梯度下降法（GD,SGD,Mini-Batch GD）在线性回归中的使用

为什么需要 Mini-batch 梯度下降，及 TensorFlow 应用举例

GD(gradient descent):梯度下降法(BGD,SGD,mini-batch GD)

改善神经网络——优化算法（mini-batch、动量梯度下降法、Adam优化算法）

吴恩达深度学习笔记(39)-更进一步理解mini-batch梯度下降法

几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）

改善深层神经网络_优化算法_mini-batch梯度下降、指数加权平均、动量梯度下降、RMSprop、Adam优化、学习率衰减

pytorch手动实现梯度下降法，随机梯度法--基于logistic Regression并探索Mini batch作用

2018.11.14——随机梯度下降，解释batch，epoch

Mini-Batch 、Momentum、Adam算法的实现

GAN的优化（十三）：mini-batch discriminator

DL之DNN：基于sklearn自带california_housing加利福尼亚房价数据集利用GD神经网络梯度下降算法进行回归预测(数据较多时采用mini-batch方式训练会更快)

简单粗暴理解与实现机器学习线性回归（五）：梯度下降法介绍、全梯度下降算法FG、随机梯度下降算法SG、小批量梯度下降算法mini-bantch、随机平均梯度下降算法SAG、算法比较、梯度下降优化算法

随机梯度下降SGD算法理解

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)