今天算是学完了第五章了,这章内容太多,有关多变量线性回归还得一点点的吸收消化呀!
介绍的时候分下小结吧
一.多功能(Multiple features)
变量不止一个 例如:
关于符号的含义这里也给的很清楚
然后假设的函数将会变成现在的形式:
演变成:
同时可以写成:
这时候我们会发现!
这就是多元线性回归(Multivariate linear regression)
二:多元梯度下降法(Gradient descent for multiple variables)
此方法和单变量梯度下降法基本一致,只不过是参数
变多了(函数的特征变多,不止一个)
方法思路还是重复之前在Day2里面写过的内容,在此不做累赘。
三:多元梯度下降法演练1-特征缩放(Feature Scaling)
思想:使得函数的特征在一个相似的范围内
这是大致思路
左边的特征值相差过大,使得梯度下降过程变得过于缓慢,而右边在同一范围内,过程会变得更快,这两幅图均是用等高线图表示的
这是实际思路(均值归一化)
用
来代替
,然后再用此
除去差值(特征值最大减去最小),得到的新结果便是一个新的
,公式为:
其中
为特征值的平均数,
是差值,这样得到的结果的区间便是在[-0.5,0.5]之间,并且所有的特征值都在同一范围内,便于运用梯度下降
四:多元梯度下降法2-学习率(Learing rate)
我把这部分的知识直接做一个总结,因为更多细节可以去学习吴恩达机器学习,网易云课堂就有
如果学习率
的取值太小,可能导致下降缓慢;如果太大,可能导致无法收敛甚至发散。
五:正规方(区别于迭代方法的直接解法)(Normal equation)
方法:对于所有的
对其求偏导使其结果为0(
)
举个简单的例子:
假设:
若对这个代价函数取最优解就是求其倒数=0的情况
这里给出了求
的公式:
在Octave中改代码为:
pinv(x'*x)*x'*y
x’代表 ,pinv代表对其求逆(pinv是一个伪逆,所以即使 )
对比
Gradient Decscent:
disadvantage:
need to choose
needs many iterations
advantage:
works well even when n is large
Normal Equaton:
disadvantage:
need to compute
(其时间复杂度为
)
advantage:
no need to choose
don’t need to iteration
今天更新的有点晚了,中午玩崩坏玩上瘾了哈哈哈然后看了一部黑客帝国,看黑客帝国的感觉???amazing……然后在家憋得时间长了出去转了转就到了现在哈哈哈
明天也要加油鸭~