梯度下降法推导

梯度下降法公式推导

梯度下降法简单的来说就是一种寻找最小值的点的方法，是机器学习和深度学习中常用的优化器，具体又可分为批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（MBGD），本文不对这些问题做讨论只是从数学角度来推导神经网络中的数学武器：梯度下降算法，本文是在学习涌井良幸先生的”深度学习的数学”一书后的笔记，仅用作个人学习和复习，由于笔者也是初学，所以难免会有各种错误，望各位大佬批评指正。
首先以二维函数举例：
在这里插入图片描述
对这个函数使用梯度下降法的实质就是求如何沿最快路径下降到最小值。
第一步研究当x和y变化是的z的变化情况：

式2的近似公式为：

将式3用向量公式表示：
在这里插入图片描述

由向量内积公式有：

由于向量A和向量B方向相反所以必定存在一个正的微小常数η满足下式：

式9即为二维函数的梯度下降法公式
将式9从二维推广到多维：

引入哈密顿算子和位移向量：

这样式10就变为了：
在这里插入图片描述
式13即为梯度下降法的通用公式，式中的η可以看作步长，在神经网络中即为学习率。

至此，简单的梯度下降法公式推导完成，当然，本文还有许多其他东西未涉及到，只是简单的数学推导。本文是我的第一篇博文，是一个分享，也是对自己学习的记录，方便以后复习，后续也会继续分享一些自己之前做的笔记和新学习的内容，同时我也计划做一个专题，专门用来记录在学习李航老师的“统计学习方法“一书过程中的体会和心得，欢迎大家持续关注和批评指正。

梯度下降法公式推导

猜你喜欢