一、问题背景
见博文线性回归,中提出的线性回归模型。我们现在将h写作下形式
hθ(x)表示以θ为参数,x为输入变量的拟合函数,那么在最小二乘下拟合的误差/损失函数J为
其中m代表每个特征的训练样本的个数。
我们的目标是确定θ,以minimizeJ(θ)。
注:
①这里不使用解析的方法,而使用数值的方法,即梯度下降法。
②hθ(x)的表达式取决于假设的拟合方式,除了线性拟合外,还有很多阶数更高的拟合方式。
二、最小二乘算法(LMS algorithm)
现在我们考虑梯度下降法,即给定起始点θ0,不断进行以下更新:
α称为学习率(learning rate),或称为步长。
梯度下降法的提出是符合直觉的,因为梯度是的方向与函数下降最快的方向一致,而且梯度下降法容易收敛到局部最小值,相关证明自行查阅。
在我们使用的线性假设以及最小二乘下的损失函数,有
对于第j个特征,若只使用一个样本,那么更新规则(update rule)即变为
这种更新规则就称为最小二乘规则(LMS rule),或者叫做Widrow-Hoff学习规则。若x(i)的选择是随机的,我们也叫随机梯度下降法(SGD)。
又注意到:
那么又有如下更新法则:
称为批量梯度下降法(BGD)。显而易见,BGD是梯度下降法的标准形式(仅在线性假设中成立)。另外也有小批量梯度下降法(MBGD)不再叙述。