RMSprop梯度下降法
有点类似动量梯度下降法,其过程为:
我们在神经网络中,算出了
dw,db,然后令:
Sdw:=βSdw+(1−β)dw2Sdb:=βSdb+(1−β)db2w:=w−α⋅Sdw
+10−8dwb:=b−α⋅Sdb
+10−8db
还是那张图:
理解
对于一个变化较大的方向(上图中的垂直方向),其
dw2会很大,所以除上
Sdw
很变得很小,所以可以做到减缓其变化。
而较小的方向,其
dw2会很小,所以除上
Sdw
很变得很大,所以可以做到加速变化。
分母加上一个较小的数是为了避免除一个极小的数的问题。
与momentum梯度下降法
RMSprop梯度下降法是用除上变化幅度来完成的降幅或增幅,而momentum梯度下降法是通过求平均的方式消除不正确的方向上的波动,增进正确方向的速度。