在随机梯度下降法(SGD)中,为什么梯度的负方向是函数下降最快的方向?

要证明  梯度的负方向是函数下降最快的方向 ,

就是要证明   梯度的正方向是函数上升最快的方向 。

证明:

假设一个向量x, 有一个函数f(x), 我们想要f(x), 趋于最小,

再假设一个随机方向 l ,注意 l 和 x 的维度相同

若函数沿着 方向l 下降或者上升(因为我们不知道沿着l方向是上升还是下降)

则得到函数:f(x+l)

将f(x+l)进行一阶泰勒展开,得到下式:

那么 f(x+l)-f(x) 就是沿着方向l的函数值的变化量。

也就是说 若f(x+l)-f(x) > 0,则是沿着方向l 是上升的;若f(x+l)-f(x) < 0,则是沿着方向l 是下降的;

回到我们的终极问题:为什么梯度的正方向是函数上升最快的方向?

我们看到 f(x+l)-f(x) 后 等式右边为:

考虑以下情况:当自变量变化特别小时

是忽略不计的

那么剩下的式子就是:

那么我们的终极问题(为什么梯度的正方向是函数上升最快的方向?)就是可以如何使得上式最大。

由于上式是点乘,所以当两个向量方向相同时,上式最大,也就是说此时是函数上升最快的方向。相反,若两个向量方向正好相反,那上式最小,也就是说此时是函数下降最快的方向。

------------------------------end--------------------------

猜你喜欢

转载自blog.csdn.net/qq_28057379/article/details/105178156