【深度学习】深度学习中的 logistic regression

深度学习中的 logistic regression

loss function

假设输出的样例为 $x$ ，标记为 $y$ ，其中 $y\in\{0,1\}$ 。
令 $P(y=1|x)=\hat y$ ，则 $P(y=0|x) = 1-\hat y$ 。
由此可得 $P(y|x)=\hat y^y(1-\hat y)^{(1-y)}$ 。

我们可以验证一下。
当 $y = 0$ 时， $\hat y^y=1$ ， $P(y=0|x)=(1-\hat y)$
当 $y = 1$ 时， $(1 - \hat y)^{1-y}=1$ ， $P(y=1|x)=\hat y$

因此 $P(y|x)=\hat y^y(1-\hat y)^{(1-y)}$ 得证。

为了使函数成为凸优化问题，我们一般使用 $\mathscr{L}(\hat Y,P(Y|X)) = - log\;P(Y|X)$ 。

因此 $\mathscr{L}(\hat y, P(y|x)) = -log\; P(y|x) = -log\;\hat y^y(1-\hat y)^{(1-y)}$
由此可得
$\begin{aligned} \mathscr{L}(\hat y, P(y|x)) &= -log\; P(y|x)\\ &= -log\;\hat y^y(1-\hat y)^{(1-y)}\\ &= -(log\;\hat y^y+log\;(1-\hat y)^{(1-y)})\\ &=-(y\;log\;\hat y\;+\;(1-y)\;log\;(1-\hat y))\\ \end{aligned}$

最终，我们得到了 $\mathscr{L}(\hat y, P(y|x))=-(y\;log\; \hat y\;+\;(1-y)\;log\;(1-\hat y))$

如果 $y = 0$ ，且 $\hat y \rightarrow 0$ ，则 $(1-\hat y) \rightarrow 1$ ， $P(y|x)=-log(1-\hat y)\rightarrow 0$
如果 $y = 0$ ，且 $\hat y \rightarrow 1$ ，则 $(1-\hat y) \rightarrow 0$ ， $P(y|x)=-log(1-\hat y)\rightarrow +\infty$
如果 $y = 1$ ，且 $\hat y \rightarrow 0$ ，则 $P(y|x)=-log\;\hat y\rightarrow +\infty$
如果 $y = 1$ ，且 $\hat y \rightarrow 1$ ，则 $P(y|x)=-log\;\hat y\rightarrow 0$

cost function

我们得到了 loss function： $\mathscr{L}(\hat y, P(y|x))=-(y\;log\; \hat y\;+\;(1-y)\;log\;(1-\hat y))$ 。

我们对 $P(y|x)$ 进行极大似然估计，得 $L=\prod_iP(y^{(i)}|x^{(i)})$ 。
两边同时取对数 $log\;L=log\;\prod_iP(y^{(i)}|x^{(i)})$
因此可以得到
$\begin{aligned} log\;L&=log\;\prod_iP(y^{(i)}|x^{(i)})\\ &=\sum_i\;log\;P(y^{(i)}|x^{(i)})\\ &=-\sum_i-\;log\;P(y^{(i)}|x^{(i)})\\ &=-\sum_i\mathscr{L}(\hat y, P(y|x))\\ \end{aligned}$

接下来对 $L$ 似然函数进行极大化，也就是对 $-L$ 进行极小化。
$max\;L = max\;-\sum_i\mathscr{L}(\hat y, P(y|x))\Rightarrow min\;-L=min\;\sum_i\mathscr{L}(\hat y, P(y|x))$

问题变成了 $min\;\sum_i\mathscr{L}(\hat y, P(y|x))$ 。
最后我们为了方便，给式子前加上系数 $1\over m$ 。
就这样 cost function 就出来了:
$J(\omega,\beta)={1\over m}\sum_i\mathscr{L}(\hat y, P(y|x))$
接下来只需要用梯度下降求解 cost function 的极小值。

西域狂猪

发布了79 篇原创文章 · 获赞 56 · 访问量 50万+

他的留言板关注