1 最小二乘法(Least Square)
一种数学方法,来直接求解最优解。
j=1∑nXijβj=yi,(i=1,2,...,m),Xβ=y
⎣⎢⎢⎢⎢⎡X11X21X31...Xm1X12X22X32...Xm2...............X1nX2nX3n...Xmn⎦⎥⎥⎥⎥⎤,β=⎣⎢⎢⎢⎢⎡β1β2β3...βn⎦⎥⎥⎥⎥⎤,y=⎣⎢⎢⎢⎢⎡y1y2y3...ym⎦⎥⎥⎥⎥⎤
β^=argminβS(β),S(β)=i=1∑m∣yi−j=1∑nXijβj∣2=∣∣y−Xβ∣∣2
推导:
∣∣y−Xβ∣∣2=(y−Xβ)T(y−Xβ)=(yT−βTXT)(y−Xβ),yTy−yTXβ−βTXTy+βTXTXβ,其中
yTXβ−βTXTy是标量,所以
∣∣y−Xβ∣∣2=yTy−2XTyβ+βTXTXβ,所以在求
∂β∂S=0=∂β∂∣∣y−Xβ∣∣2=∂β∂(βTXTXβ)−2XTy
扩展(1):对向量的求导
d(x)d(UTV)=d(x)d(UT)V+d(x)d(VT)U
扩展(2):假设B为方阵,
d(x)d(XTBX)=d(x)d(xT)BX+dxd(XTBT)X=BX+BTX=(B+BT)X
所以
∂β∂(βTXTXβ)=XTXβ+XTXβ=2XTXβ所以
2XTXβ−2XTy=0所以
β=(XTX)−1XTy
图形化的理解:
概率的理解:
假设真实值与估计值之间的误差服从正态分布,那么我们可以假设概率密度函数满足:
p(y(i)∣x(i);θ)=2π
σ1e−2σ2(y(i)−θTx(i))2
当我们想要确定
θ的值时,我们需要利用最大似然估计的方法,所以这样我们便可以将最大似然值和极小化损失函数联系到一起。
L(θ)=L(θ;X,y)=p(y∣X;θ)=i=1∏mp(y(i)∣x(i);θ)=i=1∏m2π
σ1e−2σ2(y(i)−θTx(i))2
当我们需要损失函数最小的时候,及分子平方和最小,同时达到最大似然。
2 Logistic 回归(Logistic Regression)
2.1 Sigmoid Function
Logistic 模型:
P(Y=1∣X)=1+ew⋅xew⋅x
P(Y=0∣X)=1+ew⋅x1
一个事件发生的几率(odds)是指该事件发生的机率与该事件不发生几率的比值。对数几率则是
logit(p)=log1−pp, 对logistic来说,对数几率是线性函数
w⋅x换个角度,对
x进行分类的线性函数,通过logistic模型可以变为概率。
2.2 Logistic参数估计
对于数据集
T={(x(1),y(1)),.....,(x(N),y(N)),},y∈{0,1},可以用极大似然法来估计参数,从而得到logistic模型。
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
所以似然函数为:
i=1∏N[π(x(i))]y(i)[1−π(x(i))]1−y(i)
对数似然为:
L(w)=i=1∑N[yilogπ(x)+(1−yi)log(1−π(x))]=i=1∑N[yilog1−π(x)π(x)+log(1−π(x))]
...=i=1∑N[yi(w⋅x)−log(1+ew⋅x)]
从而可以得出L极大值下的
w^估计。
2.3 多项Logistic回归(Multi-nominal logistic regression)
推广Logistic 到多分类的模型。
假设离散型随机变量Y的取值集合是
{1,2,3,4....K},那么多项logistic回归模型是:
P(Y=k∣x)=1+∑k=1K−1ewk⋅xewk⋅x,k∈{1,2....K−1}
P(Y=K∣x)=1+∑k=1K−1ewk⋅x1,x∈Rn+1,wk∈Rn+1