李宏毅机器学习笔记2:Gradient Descent

梯度下降

  • 求θ1, θ2使损失函数最小。
  • 梯度下降方向:沿着等高线的法线方向。
    在这里插入图片描述

梯度下降要点

1. 调整你的学习率

  • 使损失函数越来越小
  • 在这里插入图片描述Adaptive Learning Rates

2.Adaptive Learning Rates

2.1 Adagrad

在这里插入图片描述
等价于在这里插入图片描述
因为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(所有导数的平方的均值,再开根号)

  • 在这里插入图片描述造成反差的效果
    在这里插入图片描述
    在这里插入图片描述

2.2 Stochastic Gradient Descent

  • 一次只使用一个样本进行梯度下降
  • 更快
  • 在这里插入图片描述
    在这里插入图片描述

3 Feature Scaling

  • 让不同的特征属性投影到相同的范围内(均一化)
  • 均一化之后,梯度下降w的选取要容易很多

在这里插入图片描述

梯度下降推导

  • 泰勒展开式
  • 给定一个初始位置和范围,就能找到这个范围内的最小值
    在这里插入图片描述

局限

梯度下降很可能只是局部最优。

猜你喜欢

转载自blog.csdn.net/chairon/article/details/108963653