机器学习&Day4

今天算是学完了第五章了，这章内容太多，有关多变量线性回归还得一点点的吸收消化呀！
介绍的时候分下小结吧

一.多功能(Multiple features)

变量不止一个例如：
这里写图片描述
关于符号的含义这里也给的很清楚
然后假设的函数将会变成现在的形式：
$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$
演变成：
$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+……+\theta_nx_n$
同时可以写成：
$x=\begin{bmatrix} x_0 \\ x_1 \\ x_2 \\ …… \\ x_n \end{bmatrix} \quad \quad \theta=\begin{bmatrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ …… \\ \theta_n \end{bmatrix}$
这时候我们会发现！
$\quad h_\theta(x)=\theta^Tx\quad\quad_{(x_0=1)}$
这就是多元线性回归(Multivariate linear regression)

二:多元梯度下降法(Gradient descent for multiple variables)

此方法和单变量梯度下降法基本一致，只不过是参数 $\theta$ 变多了(函数的特征变多，不止一个)
方法思路还是重复之前在Day2里面写过的内容，在此不做累赘。

三:多元梯度下降法演练1-特征缩放(Feature Scaling)

思想：使得函数的特征在一个相似的范围内
这里写图片描述
这是大致思路
左边的特征值相差过大，使得梯度下降过程变得过于缓慢，而右边在同一范围内，过程会变得更快，这两幅图均是用等高线图表示的

这是实际思路(均值归一化)
用 $x_i-\mu_i$ 来代替 $x_i$ ，然后再用此 $x_i$ 除去差值(特征值最大减去最小)，得到的新结果便是一个新的 $x_i$ ，公式为：
$\quad\quad x_i={x_i-\mu_i\over s_i}$
其中 $\mu_i$ 为特征值的平均数， $s_i$ 是差值，这样得到的结果的区间便是在[-0.5,0.5]之间，并且所有的特征值都在同一范围内，便于运用梯度下降

四:多元梯度下降法2-学习率(Learing rate)

我把这部分的知识直接做一个总结，因为更多细节可以去学习吴恩达机器学习，网易云课堂就有
这里写图片描述
如果学习率 $\alpha$ 的取值太小，可能导致下降缓慢；如果太大，可能导致无法收敛甚至发散。

五:正规方(区别于迭代方法的直接解法)(Normal equation)

方法：对于所有的 $\theta$ 对其求偏导使其结果为0( ${\delta \over \delta\theta_i}J(\theta)=0$ )
举个简单的例子：
假设： $J(\theta)=a\theta^2+b\theta+c\quad\quad\quad J(\theta)>=0$
若对这个代价函数取最优解就是求其倒数=0的情况
这里给出了求 $\theta$ 的公式：
这里写图片描述
在Octave中改代码为：

pinv(x'*x)*x'*y

x’代表 $x^T$ ,pinv代表对其求逆(pinv是一个伪逆，所以即使 $x^Tx是奇异矩阵也能得出结果$ )

对比

Gradient Decscent：
$\quad\quad$ disadvantage:
$\quad\quad\quad\quad$ need to choose $\alpha$
$\quad\quad\quad\quad$ needs many iterations
$\quad\quad$ advantage:
$\quad\quad\quad\quad$ works well even when n is large
Normal Equaton:
$\quad\quad$ disadvantage:
$\quad\quad\quad\quad$ need to compute $(x^Tx)^{-1}$ (其时间复杂度为 $O(n^3)$ )
$\quad\quad$ advantage:
$\quad\quad\quad\quad$ no need to choose $\alpha$
$\quad\quad\quad\quad$ don’t need to iteration

今天更新的有点晚了，中午玩崩坏玩上瘾了哈哈哈然后看了一部黑客帝国，看黑客帝国的感觉？？？amazing……然后在家憋得时间长了出去转了转就到了现在哈哈哈
明天也要加油鸭~

一.多功能(Multiple features)

二:多元梯度下降法(Gradient descent for multiple variables)

三:多元梯度下降法演练1-特征缩放(Feature Scaling)

四:多元梯度下降法2-学习率(Learing rate)

五:正规方(区别于迭代方法的直接解法)(Normal equation)

对比

猜你喜欢