梯度下降法(Gradient decent) 以及在线性回归的假设——机器学习

一、问题背景

见博文线性回归,中提出的线性回归模型。我们现在将h写作下形式

hθ(x)表示以θ为参数,x为输入变量的拟合函数,那么在最小二乘下拟合的误差/损失函数J为

其中m代表每个特征的训练样本的个数。

我们的目标是确定θ,以minimizeJ(θ)。

注:

①这里不使用解析的方法,而使用数值的方法,即梯度下降法。

②hθ(x)的表达式取决于假设的拟合方式,除了线性拟合外,还有很多阶数更高的拟合方式。

二、最小二乘算法(LMS algorithm)

现在我们考虑梯度下降法,即给定起始点θ0,不断进行以下更新:

α称为学习率(learning rate),或称为步长。

梯度下降法的提出是符合直觉的,因为梯度是的方向与函数下降最快的方向一致,而且梯度下降法容易收敛到局部最小值,相关证明自行查阅。

在我们使用的线性假设以及最小二乘下的损失函数,有

对于第j个特征,若只使用一个样本,那么更新规则(update rule)即变为

这种更新规则就称为最小二乘规则(LMS rule),或者叫做Widrow-Hoff学习规则。若x(i)的选择是随机的,我们也叫随机梯度下降法(SGD)。

又注意到:

那么又有如下更新法则:

称为批量梯度下降法(BGD)。显而易见,BGD是梯度下降法的标准形式(仅在线性假设中成立)。另外也有小批量梯度下降法(MBGD)不再叙述。

猜你喜欢

转载自blog.csdn.net/a493823882/article/details/81357379