随机梯度下降的原理是就是在需要计算梯度的时候,只从样本当中选择一条来计算梯度
1.一条样本意味着非常大的随机性。很有可能这条样本的梯度和整体的梯度并不一致,甚至有很大的偏差。
这一个问题我们可以用多样本解决
2.只选择一条样本计算梯度,所以模型最后很难收敛到极值点。
这个问题我们可以在模型初始训练的时候就使用较大的学习率。随着训练次数的增多,学习率也逐渐的变小。
批量梯度下降
随机选取出一小批样本来代替整体,从而加快运算速度,偏差要比随机梯度小一些
随机梯度下降的原理是就是在需要计算梯度的时候,只从样本当中选择一条来计算梯度
1.一条样本意味着非常大的随机性。很有可能这条样本的梯度和整体的梯度并不一致,甚至有很大的偏差。
这一个问题我们可以用多样本解决
2.只选择一条样本计算梯度,所以模型最后很难收敛到极值点。
这个问题我们可以在模型初始训练的时候就使用较大的学习率。随着训练次数的增多,学习率也逐渐的变小。
批量梯度下降
随机选取出一小批样本来代替整体,从而加快运算速度,偏差要比随机梯度小一些