RMSprop梯度下降法

RMSprop梯度下降法

有点类似动量梯度下降法,其过程为:

我们在神经网络中,算出了 d w , d b dw,db ,然后令:

S d w : = β S d w + ( 1 β ) d w 2 S d b : = β S d b + ( 1 β ) d b 2    w : = w α d w S d w + 1 0 8 b : = b α d b S d b + 1 0 8 Sdw:=\beta Sdw+(1-\beta)dw^2\\ Sdb:=\beta Sdb+(1-\beta)db^2\\ \;\\ w:=w-\alpha\cdot \frac{dw}{\sqrt{Sdw}+10^{-8}}\\ b:=b-\alpha\cdot \frac{db}{\sqrt{Sdb}+10^{-8}}

还是那张图:
在这里插入图片描述

理解

对于一个变化较大的方向(上图中的垂直方向),其 d w 2 dw^2 会很大,所以除上 S d w \sqrt{Sdw} 很变得很小,所以可以做到减缓其变化。

而较小的方向,其 d w 2 dw^2 会很小,所以除上 S d w \sqrt{Sdw} 很变得很大,所以可以做到加速变化。

分母加上一个较小的数是为了避免除一个极小的数的问题。

与momentum梯度下降法

RMSprop梯度下降法是用除上变化幅度来完成的降幅或增幅,而momentum梯度下降法是通过求平均的方式消除不正确的方向上的波动,增进正确方向的速度。

发布了723 篇原创文章 · 获赞 314 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/jk_chen_acmer/article/details/103466207