【深度学习】深度学习中的 logistic regression

深度学习中的 logistic regression

loss function

假设输出的样例为 x x ,标记为 y y ,其中 y { 0 , 1 } y\in\{0,1\}
P ( y = 1 x ) = y ^ P(y=1|x)=\hat y ,则 P ( y = 0 x ) = 1 y ^ P(y=0|x) = 1-\hat y
由此可得 P ( y x ) = y ^ y ( 1 y ^ ) ( 1 y ) P(y|x)=\hat y^y(1-\hat y)^{(1-y)}

我们可以验证一下。
y = 0 y = 0 时, y ^ y = 1 \hat y^y=1 P ( y = 0 x ) = ( 1 y ^ ) P(y=0|x)=(1-\hat y)
y = 1 y = 1 时, ( 1 y ^ ) 1 y = 1 (1 - \hat y)^{1-y}=1 P ( y = 1 x ) = y ^ P(y=1|x)=\hat y

因此 P ( y x ) = y ^ y ( 1 y ^ ) ( 1 y ) P(y|x)=\hat y^y(1-\hat y)^{(1-y)} 得证。

为了使函数成为凸优化问题,我们一般使用 L ( Y ^ , P ( Y X ) ) = l o g    P ( Y X ) \mathscr{L}(\hat Y,P(Y|X)) = - log\;P(Y|X)

因此 L ( y ^ , P ( y x ) ) = l o g    P ( y x ) = l o g    y ^ y ( 1 y ^ ) ( 1 y ) \mathscr{L}(\hat y, P(y|x)) = -log\; P(y|x) = -log\;\hat y^y(1-\hat y)^{(1-y)}
由此可得
L ( y ^ , P ( y x ) ) = l o g    P ( y x ) = l o g    y ^ y ( 1 y ^ ) ( 1 y ) = ( l o g    y ^ y + l o g    ( 1 y ^ ) ( 1 y ) ) = ( y    l o g    y ^    +    ( 1 y )    l o g    ( 1 y ^ ) ) \begin{aligned} \mathscr{L}(\hat y, P(y|x)) &= -log\; P(y|x)\\ &= -log\;\hat y^y(1-\hat y)^{(1-y)}\\ &= -(log\;\hat y^y+log\;(1-\hat y)^{(1-y)})\\ &=-(y\;log\;\hat y\;+\;(1-y)\;log\;(1-\hat y))\\ \end{aligned}

最终,我们得到了 L ( y ^ , P ( y x ) ) = ( y    l o g    y ^    +    ( 1 y )    l o g    ( 1 y ^ ) ) \mathscr{L}(\hat y, P(y|x))=-(y\;log\; \hat y\;+\;(1-y)\;log\;(1-\hat y))

如果 y = 0 y = 0 ,且 y ^ 0 \hat y \rightarrow 0 ,则 ( 1 y ^ ) 1 (1-\hat y) \rightarrow 1 P ( y x ) = l o g ( 1 y ^ ) 0 P(y|x)=-log(1-\hat y)\rightarrow 0
如果 y = 0 y = 0 ,且 y ^ 1 \hat y \rightarrow 1 ,则 ( 1 y ^ ) 0 (1-\hat y) \rightarrow 0 P ( y x ) = l o g ( 1 y ^ ) + P(y|x)=-log(1-\hat y)\rightarrow +\infty
如果 y = 1 y = 1 ,且 y ^ 0 \hat y \rightarrow 0 ,则 P ( y x ) = l o g    y ^ + P(y|x)=-log\;\hat y\rightarrow +\infty
如果 y = 1 y = 1 ,且 y ^ 1 \hat y \rightarrow 1 ,则 P ( y x ) = l o g    y ^ 0 P(y|x)=-log\;\hat y\rightarrow 0
在这里插入图片描述

cost function

我们得到了 loss function L ( y ^ , P ( y x ) ) = ( y    l o g    y ^    +    ( 1 y )    l o g    ( 1 y ^ ) ) \mathscr{L}(\hat y, P(y|x))=-(y\;log\; \hat y\;+\;(1-y)\;log\;(1-\hat y))

我们对 P ( y x ) P(y|x) 进行极大似然估计,得 L = i P ( y ( i ) x ( i ) ) L=\prod_iP(y^{(i)}|x^{(i)})
两边同时取对数 l o g    L = l o g    i P ( y ( i ) x ( i ) ) log\;L=log\;\prod_iP(y^{(i)}|x^{(i)})
因此可以得到
l o g    L = l o g    i P ( y ( i ) x ( i ) ) = i    l o g    P ( y ( i ) x ( i ) ) = i    l o g    P ( y ( i ) x ( i ) ) = i L ( y ^ , P ( y x ) ) \begin{aligned} log\;L&=log\;\prod_iP(y^{(i)}|x^{(i)})\\ &=\sum_i\;log\;P(y^{(i)}|x^{(i)})\\ &=-\sum_i-\;log\;P(y^{(i)}|x^{(i)})\\ &=-\sum_i\mathscr{L}(\hat y, P(y|x))\\ \end{aligned}

接下来对 L L 似然函数进行极大化,也就是对 L -L 进行极小化。
m a x    L = m a x    i L ( y ^ , P ( y x ) ) m i n    L = m i n    i L ( y ^ , P ( y x ) ) max\;L = max\;-\sum_i\mathscr{L}(\hat y, P(y|x))\Rightarrow min\;-L=min\;\sum_i\mathscr{L}(\hat y, P(y|x))

问题变成了 m i n    i L ( y ^ , P ( y x ) ) min\;\sum_i\mathscr{L}(\hat y, P(y|x))
最后我们为了方便,给式子前加上系数 1 m 1\over m
就这样 cost function 就出来了:
J ( ω , β ) = 1 m i L ( y ^ , P ( y x ) ) J(\omega,\beta)={1\over m}\sum_i\mathscr{L}(\hat y, P(y|x))
接下来只需要用梯度下降求解 cost function 的极小值。

发布了79 篇原创文章 · 获赞 56 · 访问量 50万+

猜你喜欢

转载自blog.csdn.net/qq_40861916/article/details/99709320
今日推荐