多元线性回归推导 — Multi-Variable Linear Regression Derivation

多元线性回归通式定义如下:

ŷ i=f(x)=θ0+j=1nθjxjiyi=ŷ i+ϵi

其中 θ0 为偏置项, xji 为第 i 条数据的第 j 项特征值, θj 为第 j 项特征的权重, ŷ i 为第 i 条数据 xi 的预测值, yi 为第 i 条数据 xi 对应的实际值, ϵi 为预测值 ŷ i 与实际值 yi 之间的残差。

x0i=1 ŷ i=θ0+j=1nθjxji 可被改写成 ŷ i=θTxi

假设每条数据 xi 相互独立且同分布,残差项 ϵi 符合标准正态分布。残差项的概率密度函数如下:

p(ϵi)=12πσexp(ϵ2i2σ2)=12πσexp((yiθTxi)22σ2)


norm_dist

我们的目的是最小化 |ϵi| ,而 p(ϵi) ϵi 值趋近 μ=0 时取得最大值,如上图。因此,已知 xi yi ,我们可以使用最大似然估计来得到 θ

L(θ)=i=1mp(yi|xi;θ)=i=1m12πσexp((yiθTxi)22σ2)

L(θ) 取对数,得到 logL(θ) ,连乘变成了累加,消掉了指数幂,减少了函数的复杂度。并且, L(θ) logL(θ) 具有相同的变化趋势。因此,求 L(θ) 取得最大值时 θ 的取值等同于求 logL(θ) 取得最大值时 θ 的取值。
logL(θ)=i=1mlog(12πσexp((yiθTxi)22σ2))=i=1m(log12πσ(yiθTxi)22σ2)=i=1mlog12πσi=1m(yiθTxi)22σ2

由于 i=1mlog12πσ 2σ2 是常量, i=1m(yiθTxi)2 取得最小值时, logL(θ) 取得最大值。

于是,我们得到了最小二乘法函数

J(θ)=i=1m(yiθTxi)2

J(θ) 在其偏微分取值为零时取得最小值。因此,我们对 J(θ) 偏微分,求其取值为零时 θ 的值。
Jθ=Jθ=[Jθ0Jθ1Jθn]T=0

我们以 Jθ0 为例:
Jθ0=θ0i=1m(yiθTxi)2=θ0[(y1θTx1)2+(y2θTx2)2++(ymθTxm)2]=θ0[(y1j=1nθjxj1)2+(y2j=1nθjxj2)2++(ymj=1nθjxjm)2]=2(y1j=1nθjxj1)(x01)+2(y2j=1nθjxj2)(x02)++2(ymj=1nθjxjm)(x0m)=2[y1j=1nθjxj1y2j=1nθjxj2ymj=1nθjxjm][x01x02x0m]T=2[y1θTx1y2θTx2ymθTxm][x01x02x0m]T

同理,我们可以求得 Jθ1 Jθn 的偏微分:
Jθ0=2[y1θTx1y2θTx2ymθTxm][x01x02x0m]TJθ1=2[y1θTx1y2θTx2ymθTxm][x11x12x1m]TJθn=2[y1θTx1y2θTx2ymθTxm][xn1xn2xnm]T

将其改写成矩阵的形式:
Jθ=Jθ=Jθ0Jθ1Jθn=2[yiθTx1y2θTx2ymθTxm]x01x02x0mx11x12x1mxn1xn2xnm=2([y1y2ym][θTx1θTx2θTxm])X=2(YTθT[x1x2xm])X=2(YTθTXT)X

Jθ=2(YTθTXT)X=0 ,得到:
YTX=θTXTXθT=YTX(XTX)1=YTXX1(XT)1=YT(XT)1=YT(X1)Tθ=(θT)T=X1Y

因此,当 θ=X1Y 时, ŷ i=θTxi 能最好地描述 X Y 之间的线形相关性。

然而,现实中的数据并非都能通过求偏导来求极值。例如: z=y2x2 。如下图,当 zy=0;zx=0 时, y=0;x=0 (鞍点)却非极值点。因此,实际中多采用梯度下降法或牛顿法来求得目标函数极值的近似解。通过线性回归得到回归参数后,可以通过计算判定系数 R2 来评估回归函数的拟合优度。


saddle_point

猜你喜欢

转载自blog.csdn.net/u012841922/article/details/78674023