深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG) - 代码天地

深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

其他 2020-09-14 08:58:57 阅读次数: 0

在上一篇中，我们学习了Momentum优化算法，这一篇我们学习什么是Nesterov accelerated gradient (NAG)。

Momentum优化算法的核心就是考虑了历史梯度，根据当前的梯度值和历史梯度值合并后在进行梯度下降。

如果不了解Momentum，传送门：深度学习优化算法——彻底搞懂Momentum

Momentum在遇到局部最优解时，虽然当前时刻的梯度为0，但是由于历史梯度的存在，相当于存在一个惯性，仍然能够冲出局部最优解。

NAG比Momentum聪明，它是按照历史梯度往前走那么一小步，按照前面一小步位置的“超前梯度”来做梯度合并，给大家画个图解释下：

A为小球历史梯度的方向，B为小球根据历史梯度走一步后的梯度方向，两个梯度方向叠加后梯度方向向下，说明可以继续向下走。

Momentum公式： $v_{t}=\beta v _{t-1}+\alpha \theta _{t}$

NAG公式推导：

这个图是我截的一为大佬的公式推到图，现在来解释下。

其实NAG也是运用了指数加权平均，和Momentum公式的不同就是划黄色圈圈的地方不一样。

小括号里面的 $\theta -\gamma v_{t-1}$ 代表的意思为根据历史梯度向前走一步， $\bigtriangledown _{\theta }J\left ( \theta -\gamma v_{t-1} \right )$ 代表的意思为求 $\theta -\gamma v_{t-1}$ 那一点的梯度。

这样的话就考虑了历史梯度和未来梯度，这就是NAG。

如果您是深度学习、机器学习、人工智能爱好者，欢迎加入QQ群：1147776174，一块进步。

微信公众号：人工智能Corner，原创课程、学习资料都在这，欢迎投稿交流。

猜你喜欢

转载自blog.csdn.net/qq_38230338/article/details/107856564

深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

深度学习优化函数详解（5）-- Nesterov accelerated gradient (NAG)

深度学习优化函数详解（5）-- Nesterov accelerated gradient (NAG) 优化算法

APG(Accelerate Proximal Gradient)加速近端梯度算法和 NAG(Nesterov accelerated gradient)优化器原理 (二)

APG(Accelerate Proximal Gradient)加速近端梯度算法和 NAG(Nesterov accelerated gradient)优化器原理 (一)

比Momentum更快：揭开Nesterov Accelerated Gradient的真面目NAG 梯度下降

Nesterov Accelerated Gradient

入门神经网络优化算法（一）：Gradient Desend，Momentum，Nesterov accelerated gradient

ICLR 2020，Nesterov Accelerated Gradient and Scale Invariance for Adversarial Attacks

论文阅读 (87)：Accelerated Proximal Gradient Methods for Nonconvex Programming

学习Accelerated C++3

学习Accelerated C++2

学习Accelerated C++1

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

优化算法选择：SGD、SGDM、NAG、Adam、AdaGrad、RMSProp、Nadam

【深度学习】深入理解优化器Optimizer算法（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

Gradient Descent、Momentum、Nesterov的实现及直觉对比

显存优化 Trick（gradient_accumulation、gradient_checkpointing、xformers）

Stochastic average gradient(SAG) 算法

梯度下降算法（Gradient Descent)

梯度提升（Gradient Boosting）算法

梯度下降算法(Gradient descent)

梯度下降优化器：SGD -＞ SGDM -＞ NAG -＞AdaGrad -＞ AdaDelta -＞ Adam -＞ Nadam -＞ AdamW

css 的 conic-gradient 学习

强化学习--Policy Gradient

强化学习: Policy Gradient

gradient descent梯度下降算法的优化

梯度优化算法（gradient descent optimization algorithms）

nag外汇官网

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)