梯度下降
- 求θ1, θ2使损失函数最小。
- 梯度下降方向:沿着等高线的法线方向。
梯度下降要点
1. 调整你的学习率
- 使损失函数越来越小
- Adaptive Learning Rates
2.Adaptive Learning Rates
2.1 Adagrad
等价于
因为:
(所有导数的平方的均值,再开根号)
- 造成反差的效果
2.2 Stochastic Gradient Descent
- 一次只使用一个样本进行梯度下降
- 更快
3 Feature Scaling
- 让不同的特征属性投影到相同的范围内(均一化)
- 均一化之后,梯度下降w的选取要容易很多
梯度下降推导
- 泰勒展开式
- 给定一个初始位置和范围,就能找到这个范围内的最小值
局限
梯度下降很可能只是局部最优。