深度学习优化算法——彻底搞懂Nesterov accelerated gradient (NAG)

在上一篇中,我们学习了Momentum优化算法,这一篇我们学习什么是Nesterov accelerated gradient (NAG)。

Momentum优化算法的核心就是考虑了历史梯度,根据当前的梯度值和历史梯度值合并后在进行梯度下降。

如果不了解Momentum,传送门:深度学习优化算法——彻底搞懂Momentum

Momentum在遇到局部最优解时,虽然当前时刻的梯度为0,但是由于历史梯度的存在,相当于存在一个惯性,仍然能够冲出局部最优解。

NAG比Momentum聪明,它是按照历史梯度往前走那么一小步,按照前面一小步位置的“超前梯度”来做梯度合并,给大家画个图解释下:

A为小球历史梯度的方向,B为小球根据历史梯度走一步后的梯度方向,两个梯度方向叠加后梯度方向向下,说明可以继续向下走。

Momentum公式:v_{t}=\beta v _{t-1}+\alpha \theta _{t}

NAG公式推导:

这个图是我截的一为大佬的公式推到图,现在来解释下。

其实NAG也是运用了指数加权平均,和Momentum公式的不同就是划黄色圈圈的地方不一样。

小括号里面的\theta -\gamma v_{t-1}代表的意思为根据历史梯度向前走一步,\bigtriangledown _{\theta }J\left ( \theta -\gamma v_{t-1} \right )代表的意思为求\theta -\gamma v_{t-1}那一点的梯度。

这样的话就考虑了历史梯度和未来梯度,这就是NAG。

如果您是深度学习、机器学习、人工智能爱好者,欢迎加入QQ群:1147776174,一块进步。

微信公众号:人工智能Corner,原创课程、学习资料都在这,欢迎投稿交流。

猜你喜欢

转载自blog.csdn.net/qq_38230338/article/details/107856564