如何选择梯度下降算法中的α

“Debugging”: How to make sure gradient descent is working correctly

怎样确保梯度下降算法正确的运行

 迭代次数从100-200时,损失函数变化较大;

迭代次数从300-400时,损失函数变化不大,说明算法在300处开始收敛

通过画出损失函数的变化图来判断算法正确与否以及什么时候收敛


如果损失函数出现下面情况

说明算法没有有效的工作,原因是α太大,使用较小的α。

Summary:

  if α is too small: slow convergence.

  if α is too large: J(θ) may not decrease on every iteration; may not converge.

总结:

  如果α太小,收敛速度慢

  如果α太大,J(θ) 可能不是每次迭代都下降,可能不收敛

选择α,尝试:0.001,0.003,0.01,0.03,0.1,0.3,1...

猜你喜欢

转载自www.cnblogs.com/qkloveslife/p/9834886.html