1.BGD法。batch gradient descent批梯度下降
2.SGD法。stochastic gradient descent随机梯度下降,也称MBGD minibatch gradient descent
3.Momentum法。模拟动量
4.Nesterov Momentum法,对3的改进。
5.Adagrad法,适应不同的学习率。
6.Adadelta法。用一阶的方法,模拟二阶牛顿法
7.RMSProp法。引入衰减系数
8.Adam法。来源于自适应矩估计,引入衰减系数。
各个方法的比较: