最小二乘&梯度下降

损失函数:
在这里插入图片描述
最小二乘法:
在这里插入图片描述
最终求得结果:
在这里插入图片描述

梯度下降法:

1.随机初始化 ​θ
2.沿着负梯度方向迭代,使更新后的 θ​ 令 J(θ) ​ 更小在这里插入图片描述

3.当下降到无法下降或某个定义的极小值时,则停止下降。
(注:梯度下降的最终点并非是全局最小点,可能是一个局部最小点)

相似:
1.本质相同:两种方法都是在给定已知数据(independent & dependent variables)的前提下对dependent variables算出出一个一般性的估值函数。然后对给定新数据的dependent variables进行估算。
2.目标相同:都是在已知数据的框架内,使得估算值与实际值的总平方差尽量更小(事实上未必一定要使用平方),估算值与实际值的总平方差的公式为:
  在这里插入图片描述

不同:
实现方法和结果不同:最小二乘法是直接求导找出全局最小,是非迭代法。而梯度下降法是一种迭代法,先给定一个,然后向\Delta下降最快的方向调整,在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢,并且对初始点的选择极为敏感,其改进大多是在这两方面下功夫。

通常来说都是采用GD来进行参数求解!

机器学习中不使用第一种方法的原因主要是因为涉及方阵求逆——矩阵求逆的复杂度是O(N^3),其中,N为特征数目。次要原因是因为如果特征数目大于样本数目,则方阵是奇异矩阵,逆不存在(——这其实常常通过惩罚因子来解决)

猜你喜欢

转载自blog.csdn.net/Innovat1on/article/details/88963132