BGD(批梯度下降,又称全量梯度下降)为标准梯度下降套路,但是速度慢,每一次更新参数Θ都需要遍历所有样本。
SGD(随机梯度下降)求速度,每一次更新参数Θ只去遍历一个样本。
MBGD(小批量梯度下降)取两者中庸,每次更新Θ,取一部分样本来遍历。
具体解释如下:
值得一提的是,加入正则项后,因为L1正则项包含绝对值,不可导,所以不能使用梯度下降法,但是可以使用近端梯度下降法、坐标下降法来代替,
BGD(批梯度下降,又称全量梯度下降)为标准梯度下降套路,但是速度慢,每一次更新参数Θ都需要遍历所有样本。
SGD(随机梯度下降)求速度,每一次更新参数Θ只去遍历一个样本。
MBGD(小批量梯度下降)取两者中庸,每次更新Θ,取一部分样本来遍历。
具体解释如下:
值得一提的是,加入正则项后,因为L1正则项包含绝对值,不可导,所以不能使用梯度下降法,但是可以使用近端梯度下降法、坐标下降法来代替,