小白的机器学习学习笔记(四)---多变量线性回归(2)

接着上一章:

1、学习率:

学习率越大,代价函数在每次迭代后不一定都会减小,因为可能越过最优点;学习率越小,达到最优点所需迭代次数越多,但是在达到最优点前,代价函数9都会减小。

2、特征选取与多项式回归(特征缩放十分重要):

前面讲的都是拟合成线性函数,都是直线的拟合。现在来看看曲线,非线性函数,例如:二次函数,三次函数的拟合。

假如变量有:x1,x2。根据上一章,h=k0+k1x1+k2x2,但是如果此时所给训练集中的数据类似于二次函数分布,显然这样就难以拟合,不妨另取P这个特征,其中P=x1*x2(或其他形式,具体情况具体讨论),设h=k0+k1*P+k2*P^2,即可。

3、正规方程(无需特征缩放):

x0      x1     x2········· xn     y

1      a11   a12········a1n    b1

1      a21   a22·······a2n     b2

····································

x0=[1,1,1·····1]'   x1=[a11,a12,·······a1n]'  x2=[a21,a22,······a2n]' ············xn=[am1,am2······amn]'   y=[b1,b2·········bm]'

X=[x0,x1,x2·····xn]    (m个训练样本,n个特征量)

则最优解的模型参数为:K=(X^TX)^-^1X^Ty

通过上述可以看出,正规方程的方法无需特征缩放,无需学习率,无需迭代,直接计算即可;梯度下降算法需要学习率,需要多次迭代来确定最佳学习率,来达到局部最优点; 但是正规方程法也有缺点,那就是矩阵运算所花费的时间,简单来说,特征变量的数目会影响正规方程法运行的速度,事实上,当特征变量数目大于10000时,可能就需要考虑偏向于梯度下降的方法了。

但是,显然正规方程的运算中好像要求X'X必须可逆,然而就算不可逆,也就是所谓的奇异矩阵,仍然存在答案!!简单来说,不可逆的原因必然是和特征变量的数量有关,有两种情况:一是部分特征变量线性相关,也就是具有倍数关系;二是部分特征变量多余,有和没有差距不大。针对这两种情况,删去部分变量使X‘X变成可逆矩阵即可。

                                                                                                                                                      BY   ZJQ

猜你喜欢

转载自blog.csdn.net/qq_41641805/article/details/81413588