损失函数

我们在逻辑回归中用到的损失函数是：

L (\hat{y}, y) = - y \log (\hat{y}) - (1 - y) \log (1 - \hat{y})

${L(\hat{y},y)=-y\log(\hat{y})-(1-y)\log(1-\hat{y})}$
为什么要用这个函数作为逻辑损失函数？当我们使用平方误差作为损失函数的时候，你
会想要让这个误差尽可能地小，对于这个逻辑回归损失函数，我们也想让它尽可能地小，为
了更好地理解这个损失函数怎么起作用，举两个例子：
当y = 1时损失函数

L = - \log (\hat{y})

${L=-\log(\hat{y})}$ ，如果想要损失函数

L

${L}$ 尽可能得小，那么

\hat{y}

${\hat{y}}$ 就要尽可能大，因为 sigmoid 函数取值[0,1]，所以

\hat{y}

${\hat{y}}$ 会无限接近于 1。
当y = 0时损失函数

L (\hat{y}, y) = - (1 - y) \log (1 - \hat{y})

${L(\hat{y},y)=-(1-y)\log(1-\hat{y})}$ ，如果想要损失函数

L

${L}$ 尽可能得小，那么

\hat{y}

${\hat{y}}$ 就要尽可能小，因为 sigmoid 函数取值[0,1]，所以

\hat{y}

${\hat{y}}$ 会无限接近于 0

成本函数

损失函数是在单个训练样本中定义的，它衡量的是算法在单个训练样本中表现如何，为了衡量算法在全部训练样本上的表现如何，我们需要定义一个算法的代价函数，算法的代价函数是对m个样本的损失函数求和然后除以m:
$这里写图片描述$

逻辑回归中的梯度下降

假设样本只有两个特征 ${x_{1}}$ 和 ${x_{2}}$ ，为了计算z，我们需要输入参数 ${w_{1}}$ 、 ${w_{2}}$ 和b，除此之外还有特征值 ${x_{1}}$ 和 ${x_{2}}$ 。因此z的计算公式为 $z={w_{1}}{x_{1}}+{w_{2}}{x_{2}}$
回想一下逻辑回归的公式定义如下： $\hat{y}=a=\sigma(z)$ )其中 $z=w^Tx +b$ ， ${\sigma(z)=\frac{1}{1+e^{-z}}}$
损失函数：

L (\hat{y}, y) = - y \log (\hat{y}) - (1 - y) \log (1 - \hat{y})

${L(\hat{y},y)=-y\log(\hat{y})-(1-y)\log(1-\hat{y})}$
代价函数：
$这里写图片描述$
假设现在只考虑单个样本的情况，单个样本的代价函数定义如下：

L (a, y) = - y \log (a) - (1 - y) \log (1 - a)

${L(a,y)=-y\log(a)-(1-y)\log(1-a)}$
其中a是逻辑回归的输出， y是样本的标签值

w

${w}$ 和

b

${b}$ 的修正量可以表达如下

w = w - a \frac{\partial J (w, b)}{\partial w}

${w=w-a\frac{\partial{J(w,b)}}{\partial{w}}}$ ,

b = b - a \frac{\partial J (w, b)}{\partial b}

${b=b-a\frac{\partial{J(w,b)}}{\partial{b}}}$

因为我们想要计算出的代价函数

L (a, y)

${L(a,y)}$ 的导数，首先我们需要反向计算出代价函
数

L (a, y)

${L(a,y)}$ 关于

a

${a}$ 的导数，在编写代码时，你只需要用 ${da}$ 来表示 ${\frac{dL(a,y)}{da}}$
通过微积分得到:

\frac{d L (a, y)}{d a} = - \frac{y}{a} + \frac{(1 - y)}{1 - a}

${\frac{dL(a,y)}{da}=-\frac{y}{a}+\frac{(1-y)}{1-a}}$
这个结果是通过对代价函数

L (a, y)

${L(a,y)}$ 求a的偏导得出来的,求偏导时将 ${y}$ 看成常量, ${a}$ 看成变量,通过求导公式得到

\log a

${\log{a}}$ 的导数为

\frac{1}{a}

${\frac{1}{a}}$ ,这里的

\log a

${\log{a}}$ 我更倾向于用

\ln a

${\ln{a}}$ 来表示,因为

\log a

${\log{a}}$ 求导过后会有个常量

\ln 10

${\ln{10}}$ ,而

\ln a

${\ln{a}}$ 求导过后就是

\frac{1}{a}

${\frac{1}{a}}$ ,虽然没有资料直接说明此处就是

\ln

${\ln}$ 但是通过对结果的反推,个人感觉应该是

\ln

${\ln}$ 函数。同理对

\log (1 - a)

${\log{(1-a)}}$ 求导得到

- \frac{1}{1 - a}

${-\frac{1}{1-a}}$ ,为什么要加个”

-

${-}$ ”号,因为这是复合函数,对

\log

${\log}$ 求完导后还要对

1 - a

${1-a}$ 求导,而

1 - a

${1-a}$ 对

a

${a}$ 求导得到的就是

- 1

${-1}$ ,因此需要加一个”

-

${-}$ “号。

此时，我们已经完成代价函数对

a

${a}$ 的偏导，接下来需要求代价函数对

z

${z}$ 的偏导。对

z

${z}$ 的求偏导，需要利用微分里的链式法则。即:

\frac{d L (a, y)}{d z} = \frac{d L}{d z} = \frac{d L}{d a} \cdot \frac{d a}{d z}

${\frac{dL(a,y)}{dz} = \frac{dL}{dz}=\frac{dL}{da}\cdot \frac{da}{dz}}$ 这里的

\frac{d L}{d a}

${\frac{dL}{da}}$ 我们已经求出来过了，也就是

d a

${da}$ ,前面有提到

\hat{y} = a = σ (z)

${\hat{y}=a=\sigma{(z)}}$ ,
而sigma函数的表达式又为

\frac{1}{1 + e^{- z}}

${\frac{1}{1+e^{-z}}}$ ，即

a = σ (z) = \frac{1}{1 + e^{- z}}

${a=\sigma{(z)}=\frac{1}{1+e^{-z}}}$ 这时我们就可以求出

a

${a}$ 对

z

${z}$ 的偏导数了，也就是说求出

\frac{d a}{d z}

${\frac{da}{dz}}$ ，同样的我们这里还是利用求导公式将

1 + e^{- z}

${{1+e^{-z}}}$ 看做一个整体，令

t = 1 + e^{- z}

${t={1+e^{-z}}}$ ，对

σ (z)

${\sigma{(z)}}$ 进行求导得到 ${\sigma’{(z)} = -\frac{1}{t^2}}$ ,因为

t

${t}$ 也是的

z

${z}$ 函数,所以还需要对

t

${t}$ 进行求导，求导方式同样是使用复合函数的求导原则得到

t^{'} = - e^{- z}

${t'=-e^{-z}}$ ,因此，

σ^{'} (a) = - \frac{1}{(1 + e^{- z})^{2}} \cdot (- e^{- z}) = \frac{e^{- z}}{(1 + e^{- z})^{2}} = \frac{1 + e^{- z} - 1}{(1 + e^{- z})^{2}} = a - a^{2}

${\sigma'{(a)}=-\frac{1}{(1+e^{-z})^2}} \cdot (- e^{-z})=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{1+e^{-z}-1}{(1+e^{-z})^2} =a-a^2$ ,为什么结果会变成

a - a^{2}

${a-a^2}$ ，因为我们定义的 ${a=\sigma{(z)}=\frac{1}{1+e^{-z}}}$ ，所以

\frac{d a}{d z}

${\frac{da}{dz}}$ 最终结果为

a - a^{2}

${a-a^2}$ ，再利用之前的链式法则，可以得到

\frac{d L (a, y)}{d z} = \frac{d L}{d a} \cdot \frac{d a}{d z} = (- \frac{y}{a} + \frac{(1 - y)}{1 - a}) \cdot (a - a^{2}) = a - y

${\frac{dL(a,y)}{dz}=\frac{dL}{da}\cdot\frac{da}{dz}=(-\frac{y}{a}+\frac{(1-y)}{1-a})\cdot(a-a^2)=a-y}$

接下来需求求解的是就是

d w = \frac{d L (a, y)}{d w}

${dw=\frac{dL(a,y)}{dw}}$ ，同样的还是利用链式法则我们可以得到

d w = \frac{d L (a, y)}{d w} = \frac{d L}{d w} = \frac{d L}{d a} \cdot \frac{d a}{d z} \cdot \frac{d z}{d w}

${dw=\frac{dL(a,y)}{dw}}=\frac{dL}{dw}=\frac{dL}{da}\cdot \frac{da}{dz}\cdot\frac{dz}{dw}$ ,在前面的过程中我们求出了

\frac{d L}{d a} 和 \frac{d a}{d z}

${\frac{dL}{da}和\frac{da}{dz}}$ ，现在我们需要求的就是

\frac{d z}{d w} ， 因 此 我 们 需 要 知 道 w 对 z 的 函 数

${\frac{dz}{dw}，因此我们需要知道w对z的函数}$ 也就是

z = w x + b

${z=wx+b}$ ，这样求

w 对 z

${w对z}$ 的偏导就很容易了，只需将

x

${x}$ 看成常量即可，得到

\frac{d z}{d w} = x

${\frac{dz}{dw}=x}$ ，所以

d w = d z \cdot x

${dw=dz\cdot x}$ ，同样的方法可以求出

\frac{d z}{d b} = 1 ， 也 就 是 说 d b = d z

${\frac{dz}{db}=1，也就是说db=dz}$

常见的求导公式

这里写图片描述

深度学习反向传播公式推导

损失函数

成本函数

逻辑回归中的梯度下降

常见的求导公式

猜你喜欢