训练神经网络(CS231n 7. Training Neural Networks II)

7.1 更好的优化

随机梯度下降(SGD):在每次迭代中,选取一小部分训练样本,成为minibatch(小批量),用minibatch来估算误差总和L(W)和实际梯度wL(W).这种选取是随机的,当做对真实值期望的蒙特卡洛估计。

SGD存在的问题:
鞍点:既不是极大值点也不是极小值点的临界点
噪声项。。

改进方法:
加入动量项 v t 初始化为0

AdaGrad法:

有两个坐标轴,沿其中一个轴有很高的梯度,另一轴很小梯度,随着累加 d x 2 ,会在

猜你喜欢

转载自blog.csdn.net/eqiang8848/article/details/80385500
今日推荐