版权声明:License CC BY-NC-SA 4.0 https://blog.csdn.net/wizardforcel/article/details/83345186
线性回归
令
z=wTx+b,得到:
y=z+ϵ,ϵ∼N(0,σ2)
于是:
y∣x∼N(z,σ2)
为啥是
y∣x,因为判别模型的输出只能是
y∣x。
它的概率密度函数:
fY∣X(y)=2π
σ1exp(2σ2−(y−z)2)=Aexp(−B(y−z)2),A,B>0
计算损失函数:
L=−∑ilogfY∣X(y(i))=−∑i(logA−B(y(i)−z(i))2)=B∑i(y(i)−z(i))2+C
所以
minL 就相当于
min(y(i)−z(i))2。结果和最小二乘是一样的。
逻辑回归
令
z=wTx+b,a=σ(z),我们观察到在假设中:
P(y=1∣x)=aP(y=0∣x)=1−a
也就是说:
y∣x∼B(1,a)
其实任何二分类器的输出都是伯努利分布。因为变量只能取两个值,加起来得一,所以只有一种分布。
它的概率质量函数(因为是离散分布,只有概率质量函数,不过无所谓):
pY∣X(y)=ay(1−a)1−y
然后计算损失函数:
L=−∑ilogpY∣X(y(i))=−∑i(y(i)loga(i)+(1−y(i))log(1−a(i)))
和交叉熵是一致的。
可以看出,在线性回归的场景下,MLE 等价于最小二乘,在逻辑回归的场景下,MLE 等价于交叉熵。但不一定 MLE 在所有模型中都是这样。