批量梯度下降and随机梯度下降

在学习线性回归，在基于均方误差最小化进行模型求解时，需要利用梯度下降的方式逐步逼近最优解。

线性回归的假设函数（一个特征的情况下）： $h_{\theta}(x^{(i)}) = \theta_{1}x^{(i)} + \theta_{0}$ ， $x^{i}$ 为第i个样本值。

其中i代表样本数。

均方误差的代价函数（优化的目标函数）： $J(\theta_{0},\theta_{1}) = \frac{1}{2m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$ ，m个样本值。

目的：确定参数 $\theta$ 使代价函数最小。

1、批量梯度下降（Batch Gradient Descent，BGD）

（1）初始化参数（需要求解的值） $\theta_{0}$ .. $\theta_{n}$

（2）对代价函数（总体样本）求偏导（针对于每个 $\theta$ ）

$\frac{ \Delta J(\theta_{0}...\theta_{n})}{\Delta\theta_{j}} = \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$

（3）更新参数 $\theta_{0}$ .. $\theta_{n}$

$\theta_{j} := \theta_{j} - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$ ， $\alpha$ 为学习率，影响收敛速度和结果，若学习率过大，则可能无法收敛，若学习率过小，则收敛速度慢。

（4）迭代2、3步骤，直到收敛。

总结：每次更新参数，都需要针对总体样本的均方误差求偏导，好处是更准确地朝向极值所在的方向。当目标函数为凸函数时，当学习率恰当时，BGD一定能够得到全局最优。缺点是样本数较大时，每迭代一步都需要对所有样本计算，训练过程会很慢。

2、随机梯度下降（Stochastic Gradient Descent，SGD）

（1）初始化参数（需要求解的值） $\theta_{0}$ .. $\theta_{n}$

（2）对代价函数（随机的单个样本）求偏导（针对于每个 $\theta$ ）

目标函数： $J^{(i)}(\theta_{1}...\theta_{n}) = \frac{1}{2}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$

求偏导： $\frac{\Delta J^{(i)}(\theta_{1}...\theta_{n})}{\Delta\theta_{j}} = (h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{{(i)}}$

（3）更新参数 $\theta_{0}$ .. $\theta_{n}$

$\theta_{j}:= \theta_{j} - \alpha (h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{{(i)}}$

（4）迭代2、3步骤，直到收敛。

总结：优点是更新参数不需要总体样本的均方误差，而是随机优化单个样本上的损失函数，使收敛速度加快。缺点是随机梯度下降可能无法收敛，容易收敛到局部最优。

本文参考地址

2020-05-18 21：15