最小均方差的概率阐述(Probabilistic interpretation)

当面对一个像线性回归的回归问题时,为什么最小方差成本函数是一个好的解决方案呢?在这一节的内容,我们通过概率论的视角会发现最小方差回归是一个很自然的算法。

我们不妨假设,目标变量与输入变量有如下关于:

y(i)=θTx(i)+ϵ(i),y(i)=θTx(i)+ϵ(i),

上式中的ϵ(i)ϵ(i)是一个误差项,表示模型未捕捉的特征或随机噪声。我们假设这些ϵ(i)ϵ(i)是独立同分布于均值为0、方差为σ2σ2的高斯分布,记作ϵ(i)N(0,σ2)ϵ(i)∼N(0,σ2)ϵ(i)ϵ(i)的概率密度为:

p(ϵ(i))=12πσexp((ϵ(i))22σ2).p(ϵ(i))=12πσexp(−(ϵ(i))22σ2).

替换一下变量则有:

p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2).p(y(i)|x(i);θ)=12πσexp(−(y(i)−θTx(i))22σ2).

p(y(i)|x(i);θ)p(y(i)|x(i);θ)是对于给定输入特征x(i)x(i)和参数θθ时,y(i)y(i)的条件概率分布。需要注意的是它不能写成p(y(i)|x(i),θ)p(y(i)|x(i),θ),因为θθ不是一个随机变量。

给定XX(包含所有的数据集x(i)x(i))和θθ,如何确定y(i)y(i)的分布?这个概率由p(y⃗ |X;θ)p(y→|X;θ)表示,它是y⃗ y→关于θθ的函数。而当我们把它看成是一个关于θθ的函数时,这个函数就可以称为似然函数

L(θ)=L(θ;X,y⃗ )=p(y⃗ |X;θ).L(θ)=L(θ;X,y→)=p(y→|X;θ).

又我们假设ϵ(i)ϵ(i)是独立的,上式可改写为:

L(θ)=i=1m p(y(i)|x(i);θ)=i=1m 12πσexp((y(i)θTx(i))22σ2)L(θ)=∏i=1m p(y(i)|x(i);θ)=∏i=1m 12πσexp(−(y(i)−θTx(i))22σ2)

为了求极大似然,使用对数似然函数可以简化我们的计算:

(θ)=log L(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσ1σ212i=1m(y(i)θTx(i))2.ℓ(θ)=log L(θ)=log∏i=1m12πσexp(−(y(i)−θTx(i))22σ2)=∑i=1mlog12πσexp(−(y(i)−θTx(i))22σ2)=mlog12πσ−1σ2⋅12∑i=1m(y(i)−θTx(i))2.

而这时我们就可以发现极大似然估计和最小均方差是同解的:

12i=1m(y(i)θTx(i))212∑i=1m(y(i)−θTx(i))2

上式就是原始最小方差成本函数J(θ)J(θ)

总结: 在之前的概率假设下,最小方差回归和寻找θθ的极大似然估计是对应的。在这一系列假设下,最小方差回归是处理极大似然估计的直接方法。 
需要注意一点,最后参数θθ的选择和方差σ2σ2是无关的,实际上即使σ2σ2不知道我们也可推出已上结论。这一点在后面的指数族和生成线性模型中也会有应用。

猜你喜欢

转载自blog.csdn.net/yaoxy/article/details/79492161