04 自动调整学习率（Learning Rate）-学习笔记-李宏毅深度学习2021年度

企业开发 2022-05-14 01:41:14 阅读次数: 0

上一篇：03 梯度（Gradient）很小怎么办（Local Minima与Saddle Point）-学习笔记-李宏毅深度学习2021年度

下一篇：05 Classification-学习笔记-李宏毅深度学习2021年度

本节内容及相关链接

自动调整 Learning Rate 的常见策略

课堂笔记

当training陷入瓶颈时，不一定是gradient太小，有可能是由于学习率太大，导致其在山谷之间震荡，无法抵达最小值

在这里插入图片描述
对应到gradient的函数图像如下图：

$x$ 轴为更新次数， $y$ 为gradient的大小

要根据迭代次数，当前梯度等因素，自动调整 Learning Rate。 $\theta$ 的更新公式改为: $\theta_i^{t+1}\leftarrow \theta_i^t - \frac{\eta}{\sigma_i^t}g^t_i$

对于Learning Rate的调整，都是通过调整 $\sigma$ 来实现

常见的调整策略有：

Root Mean Square：考虑本次的梯度和过去的所有梯度
RMSProp：重点考虑本次的梯度，稍微考虑过去的所有梯度
Adam：结合了RMSProp和Momentum
Learning Rate Decay：随着更新次数的增多，因为我们就会越接近目标，所以要将Learning Rate调小
Warm Up：一开始Learning Rate小一点，然后随着迭代次数增多而增大，然后到某一个点时，再随着迭代次数增多而减小。如图所示：

Root Mean Square公式为： $\sigma_{i}^{t}=\sqrt{\frac{1}{t+1} \sum_{i=0}^{t}\left(g_{i}^{t}\right)^{2}}$

RMSProp公式为： $\sigma_{i}^{t}=\sqrt{\alpha\left(\sigma_{i}^{t-1}\right)^{2}+(1-\alpha)\left(g_{i}^{t}\right)^{2}}$ 其中 $\alpha$ 为要调的超参数， $0<\alpha<1$

Adam 建议采用Pytorch默认的参数。

Adam的调整策略如下：

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/zhaohongfei_358/article/details/123176219

04 自动调整学习率（Learning Rate）-学习笔记-李宏毅深度学习2021年度

01 机器(深度)学习介绍-学习笔记-李宏毅深度学习2021年度

02 机器学习任务攻略-学习笔记-李宏毅深度学习2021年度

03 梯度（Gradient）很小怎么办（Local Minima与Saddle Point）-学习笔记-李宏毅深度学习2021年度

李宏毅机器学习笔记04（Classification: Logistic Regression）

李宏毅机器学习笔记-04 Gradient Decent

李宏毅老师2021深度学习课程笔记

【李宏毅2021机器学习深度学习】作业讲解

【李宏毅2021机器学习深度学习】Transform

李宏毅深度学习

【强推】李宏毅老师2021深度学习课程学习笔记（持续更新中）

李宏毅深度学习笔记（七）初探深度学习

<Machine Learning - 李宏毅> 学习笔记

mate learning学习笔记（李宏毅）

2021李宏毅机器学习课程笔记——Auto Encoder

李宏毅《机器学习深度学习》简要笔记（一）

《李宏毅深度学习》CNN 学习笔记

keras自动调整学习率

学习率调整策略，学习率预热（warmup）和学习率衰减（Learning Rate Decay）

李宏毅深度学习笔记（一）Adagrad

李宏毅深度学习笔记（六）逻辑回归

李宏毅深度学习笔记-偏差和方差

李宏毅深度学习笔记：Batch Normalization

李宏毅深度学习笔记——呕心整理版

学习04

李宏毅深度学习_Backpropagation

李宏毅深度学习-Improved GAN

深度学习-李宏毅PPT总结

【深度学习】李宏毅：图解 Transformer

学习率Learning rate

今日推荐

周排行

3.5星|津巴多《时间的悖论》：未来导向的人更有可能取得个人的成功，但帮助他人的可能性更小

k8s无脑系列（二）-DNS服务搭建和访问

leetcode 26 从排序数组中删除重复项

Python Web 框架：Django、Flask 与 Tornado

中科院计算所研究员陈益强：越来越'聪明'的智能硬件

dotNET面试（二）

数据备份恢复

vue 路由知识点梳理及应用场景整理

ajax局部刷新流程

分段、分页&&内存碎片、外存碎片

每日归档

更多

2025-03-22(0)

2025-03-21(0)

2025-03-20(0)

2025-03-19(0)

2025-03-18(0)

2025-03-17(0)

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)