批量梯度下降and随机梯度下降

在学习线性回归,在基于均方误差最小化进行模型求解时,需要利用梯度下降的方式逐步逼近最优解。

线性回归的假设函数(一个特征的情况下):为第i个样本值。

其中i代表样本数。

均方误差的代价函数(优化的目标函数):,m个样本值。

目的:确定参数使代价函数最小

1、批量梯度下降(Batch Gradient Descent,BGD)

(1)初始化参数(需要求解的值) ..

(2)对代价函数(总体样本)求偏导(针对于每个

(3)更新参数..

为学习率,影响收敛速度和结果,若学习率过大,则可能无法收敛,若学习率过小,则收敛速度慢。

(4)迭代2、3步骤,直到收敛。

总结:每次更新参数,都需要针对总体样本的均方误差求偏导,好处是更准确地朝向极值所在的方向。当目标函数为凸函数时,当学习率恰当时,BGD一定能够得到全局最优。缺点是样本数较大时,每迭代一步都需要对所有样本计算,训练过程会很慢

2、随机梯度下降(Stochastic Gradient Descent,SGD)

(1)初始化参数(需要求解的值) ..

(2)对代价函数(随机的单个样本)求偏导(针对于每个

目标函数:

求偏导:

(3)更新参数..

(4)迭代2、3步骤,直到收敛。

总结:优点是更新参数不需要总体样本的均方误差,而是随机优化单个样本上的损失函数,使收敛速度加快。缺点是随机梯度下降可能无法收敛,容易收敛到局部最优

本文参考地址

2020-05-18 21:15

猜你喜欢

转载自www.cnblogs.com/fuyusheng/p/12913030.html
今日推荐