Andrew机器学习课程 章节2——单变量线性回归

在surpervised question中

(x,y)表示一个训练样本。    x为features(特征)y为target(目标)

(xi,yi)表示训练集。上标i just an index into the training set

Hypothesis function(假设函数):

Hypothesis function : hθ(x) =θ0+θ1x.

Hypothesis function是关于变量x的函数

cost fuction(代价函数)

    概况来讲,任何能够衡量模型预测出来的值h(θ)与真实值y之间的差异的函数都可以叫做代价函数C(θ),如果有多个样本,则可以将所有代价函数的取值求均值,记做J(θ)。   

cost fuction是关于parameters的函数

平方误差代价函数是解决回归问题最常用的手段,具体定义如下:

找到是训练集中预测值和真实值的差的平方和最小的1/2M的θ0和θ1的值

假设有训练样本(x, y),模型为h,参数为θ0,θ1。hθ(xi) =θ0+θ1xi.

优化目标: 求使得J(θ0,θ1)最小的parameters:θ0,θ1。此时求得目标函数

梯度下降法:(grandient descent)

 给θ0,θ1赋予某一个初值进行出发 直到收敛于某一个局部最小解

算法过程:重复下列迭代

其中:=表示的是复制,α表示学习率(控制以多大的幅度更新参数)通俗讲,用于表示下降的步伐。
特别注意:θ0,θ1需要同时更新

α太小:需要进行多次梯度下降

α太大:可能越过最小点,导致无法收敛甚至发散

一个特点:在梯度下降法中,当我们接近局部最低点时,梯度下降法自动采取更小的幅度(曲线越来越平缓导致导数也越来越小)

线性回归算法:

(将梯度算法与代价函数相结合拟合线性函数)

求导:

线性回归的代价函数总是像一个弓状函数如下所示。叫做凸函数(convex function)

此类函数没有局部最优解,只有一个全局最优。 

”batch“gradient descent 

猜你喜欢

转载自blog.csdn.net/qq_35962520/article/details/83510435