机器学习笔记之六——梯度下降推导之BGD、SGD、MBGD

BGD(批梯度下降,又称全量梯度下降)为标准梯度下降套路,但是速度慢,每一次更新参数Θ都需要遍历所有样本。

SGD(随机梯度下降)求速度,每一次更新参数Θ只去遍历一个样本。

MBGD(小批量梯度下降)取两者中庸,每次更新Θ,取一部分样本来遍历。

具体解释如下:

  

值得一提的是,加入正则项后,因为L1正则项包含绝对值,不可导,所以不能使用梯度下降法,但是可以使用近端梯度下降法、坐标下降法来代替,

猜你喜欢

转载自blog.csdn.net/qq_35946969/article/details/84951236