线性回归(linear regression)
什么是线性回归?
线性回归对一个或者多个自变量和因变量之间的关系进行建模的一种回归分析,线性回归模型应用于有监督的回归问题。
线性回归模型为:
y(i)=ΘT×x(i)+ε(i)
其中
ϵ 代表偏差项(error term)
关于
ϵ 的假设?
若对一个问题建立线性回归模型进行求解,其
ϵ 需满足以下两个假设:
1.独立的,即
ϵ 之间互不影响,相互独立。
2.同分布,即
ϵ 之间满足相同的分布(对于线性回归满足高斯分布,对于逻辑斯蒂回归满足伯努利分布)。
推导过程
假设
ϵ 满足均值为0,标准差为
σ 的高斯分布;即
ε∼(0,σ2)。则:
P(ε(i))=2πσ1exp(−2σ2(ϵ(i))2)
将模型代入得:
P(y(i)∣x(i),Θ)=2πσ1exp(−2σ2(y(i)−ΘTx(i))2)
所以,关于
Θ 的似然函数为:
L(Θ)=L(Θ,x,y)=P(y∣x,Θ)
因为
Θ 满足独立同分布,所以:
L(Θ)=∏i=1mP(y(i)∣x(i),Θ)=∏i=1m2πσ1exp(−2σ2(y(i)−ΘTx(i))2)
使用极大似然估计即需要满足 max
L(Θ) ,同时为便于求解,我们将似然函数求对数转化为对数似然,即:
logL(Θ)=∑i=1mlog2πσ1exp(−2σ2(y(i)−ΘTx(i))2)=mlog2πσ1+(−σ21∗21∑i=1m(y(i)−ΘTx(i)))
去除常数项,并在等式两边添加负号,将求解目标函数最大值转换为求解目标函数最小值,得到下式:
minL(−(Θ))≈21∑i=1m(y(i)−ΘTx(i))2
因此,我们使用极大似然估计得到了最小二乘法中的代价函数。