最近在上“交通大数据”一课,里面的公式推导还是有点麻烦的,今天就来推导下在什么情况下最大似然估计和最小二乘估计等价。
先来说一下结论:当模型估计值和真实值间的残差项服从均值是0的高斯分布时,就有最小二乘估计和最大似然估计等价。
推导过程
极大似然估计
首先,我们知道最大似然估计如下所示:
ΘML = arg maxΘEx-pdata[ logpmodel(x(i);Θ) ]
对于模型
= g(x) ,即y = g(x)+ ϵ,如果我们假设ϵ ~ N(0,σ):
根据 y =
+ ϵ,我们可以得出 y ~ N(
,σ)
可以写出它的极大似然估计如下所示:(打字好麻烦,就手写了,大家将就着看吧!)
最小二乘估计(最小均方误差)
MinΘ( 1/M*Σ ||y - ||2 2)
两者比较
大家注意最大似然估计中与样本有关的项也就是最后一项就是1/M * Σ ||y - ||2 2,这和最小二乘估计是一模一样的,因此可以得出结论:当模型估计值和真实值间的残差项服从均值是0的高斯分布时,就有最小二乘估计和最大似然估计等价。
————————————————————————————————————
今天在《deep learning》中看到一句话:
之前,我们看到了对输出分布的最大似然估计和对线性模型均方误差的最小化之间的等价性,但事实上,这种等价性并不要求g(x)用于预测高斯分布的均值。
所以应该可以有更加宽松的等价条件,但是对于更深入的理解,我目前并无法达到。