深度学习中的 logistic regression
loss function
假设输出的样例为
x,标记为
y,其中
y∈{0,1}。
令
P(y=1∣x)=y^,则
P(y=0∣x)=1−y^。
由此可得
P(y∣x)=y^y(1−y^)(1−y)。
我们可以验证一下。
当
y=0 时,
y^y=1,
P(y=0∣x)=(1−y^)
当
y=1 时,
(1−y^)1−y=1,
P(y=1∣x)=y^
因此
P(y∣x)=y^y(1−y^)(1−y) 得证。
为了使函数成为凸优化问题,我们一般使用
L(Y^,P(Y∣X))=−logP(Y∣X)。
因此
L(y^,P(y∣x))=−logP(y∣x)=−logy^y(1−y^)(1−y)
由此可得
L(y^,P(y∣x))=−logP(y∣x)=−logy^y(1−y^)(1−y)=−(logy^y+log(1−y^)(1−y))=−(ylogy^+(1−y)log(1−y^))
最终,我们得到了
L(y^,P(y∣x))=−(ylogy^+(1−y)log(1−y^))
如果
y=0 ,且
y^→0,则
(1−y^)→1,
P(y∣x)=−log(1−y^)→0
如果
y=0 ,且
y^→1,则
(1−y^)→0,
P(y∣x)=−log(1−y^)→+∞
如果
y=1,且
y^→0,则
P(y∣x)=−logy^→+∞
如果
y=1,且
y^→1,则
P(y∣x)=−logy^→0
cost function
我们得到了 loss function:
L(y^,P(y∣x))=−(ylogy^+(1−y)log(1−y^))。
我们对
P(y∣x) 进行极大似然估计,得
L=∏iP(y(i)∣x(i))。
两边同时取对数
logL=log∏iP(y(i)∣x(i))
因此可以得到
logL=logi∏P(y(i)∣x(i))=i∑logP(y(i)∣x(i))=−i∑−logP(y(i)∣x(i))=−i∑L(y^,P(y∣x))
接下来对
L 似然函数进行极大化,也就是对
−L 进行极小化。
maxL=max−i∑L(y^,P(y∣x))⇒min−L=mini∑L(y^,P(y∣x))
问题变成了
min∑iL(y^,P(y∣x))。
最后我们为了方便,给式子前加上系数
m1。
就这样 cost function 就出来了:
J(ω,β)=m1i∑L(y^,P(y∣x))
接下来只需要用梯度下降求解 cost function 的极小值。