机器学习&Day4

今天算是学完了第五章了,这章内容太多,有关多变量线性回归还得一点点的吸收消化呀!
介绍的时候分下小结吧

一.多功能(Multiple features)

变量不止一个 例如:
这里写图片描述
关于符号的含义这里也给的很清楚
然后假设的函数将会变成现在的形式:
h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4
演变成:
h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + + θ n x n
同时可以写成:
x = [ x 0 x 1 x 2 x n ] θ = [ θ 0 θ 1 θ 2 θ n ]
这时候我们会发现!
h θ ( x ) = θ T x ( x 0 = 1 )
这就是多元线性回归(Multivariate linear regression)

二:多元梯度下降法(Gradient descent for multiple variables)

此方法和单变量梯度下降法基本一致,只不过是参数 θ 变多了(函数的特征变多,不止一个)
方法思路还是重复之前在Day2里面写过的内容,在此不做累赘。

三:多元梯度下降法演练1-特征缩放(Feature Scaling)

思想:使得函数的特征在一个相似的范围内
这里写图片描述
这是大致思路
左边的特征值相差过大,使得梯度下降过程变得过于缓慢,而右边在同一范围内,过程会变得更快,这两幅图均是用等高线图表示的
这里写图片描述
这是实际思路(均值归一化)
x i μ i 来代替 x i ,然后再用此 x i 除去差值(特征值最大减去最小),得到的新结果便是一个新的 x i ,公式为:
x i = x i μ i s i
其中 μ i 为特征值的平均数, s i 是差值,这样得到的结果的区间便是在[-0.5,0.5]之间,并且所有的特征值都在同一范围内,便于运用梯度下降

四:多元梯度下降法2-学习率(Learing rate)

我把这部分的知识直接做一个总结,因为更多细节可以去学习吴恩达机器学习,网易云课堂就有
这里写图片描述
如果学习率 α 的取值太小,可能导致下降缓慢;如果太大,可能导致无法收敛甚至发散。

五:正规方(区别于迭代方法的直接解法)(Normal equation)

方法:对于所有的 θ 对其求偏导使其结果为0( δ δ θ i J ( θ ) = 0 )
举个简单的例子:
假设: J ( θ ) = a θ 2 + b θ + c J ( θ ) >= 0
若对这个代价函数取最优解就是求其倒数=0的情况
这里给出了求 θ 的公式:
这里写图片描述
在Octave中改代码为:

pinv(x'*x)*x'*y

x’代表 x T ,pinv代表对其求逆(pinv是一个伪逆,所以即使 x T x )

对比

Gradient Decscent
disadvantage:
need to choose α
needs many iterations
advantage:
works well even when n is large
Normal Equaton:
disadvantage:
need to compute ( x T x ) 1 (其时间复杂度为 O ( n 3 ) )
advantage:
no need to choose α
don’t need to iteration

今天更新的有点晚了,中午玩崩坏玩上瘾了哈哈哈然后看了一部黑客帝国,看黑客帝国的感觉???amazing……然后在家憋得时间长了出去转了转就到了现在哈哈哈
明天也要加油鸭~

猜你喜欢

转载自blog.csdn.net/qq_42496432/article/details/81590272
今日推荐