深度学习(一) 损失函数、输出单元、激活函数、反向传播

深度前馈网络

概述
- 线性模型无论是凸优化还是闭式解都可以高效可靠地拟合，而它的缺陷是拟合能力局限于线性函数里，无法理解特征之间的相互作用。
- 深度学习通过学习特征来优化模型，提高模型的性能。
- 与线性模型的凸优化从任意初始解都能收敛到最优点不同的是，深度学习的代价函数往往是非凸的，使用梯度来进行模型的优化。这种非凸迭代优化对模型的初值敏感，使用不同的初始值会收敛到不同的点。
损失函数
神经网络使用最大似然来进行训练：

$\begin{matrix} (1) & J (θ) = - E_{x, y \sim {\hat{p}}_{d a t a}} l o g p_{m o d e l} (y | x) \end{matrix}$ $J(\theta)=-E_{x,y\sim \hat p_{data}}logp_{model}(y|x)\tag1$
损失函数必须足够的大、足够的足有代表性，饱和函数的梯度非常的小，不适合作为损失函数
常用损失函数：交叉熵、l2
输出单元
- 线性单元
  $\begin{matrix} (2) & \hat{y} = W^{T} h + b \end{matrix}$ $\hat y =W^Th+b\tag2$
  不易饱和，适合各种优化算法
- sigmoid 二分类
  $\begin{matrix} (3) & \hat{y} = σ (w^{T} h + b) \end{matrix}$ $\hat y = \sigma (w^Th + b)\tag3$
- softmax 多分类
  $\begin{matrix} (4) & z = W^{T} h + b \end{matrix}$ $z=W^Th+b\tag4$
  $\begin{matrix} (5) & s o f t m a x (z)_{i} = \frac{e^{z_{i}}}{\sum_{k} e^{z_{k}}} \end{matrix}$ $softmax(z)_i=\frac{e^{z_i}}{\sum_ke^{z_k}}\tag5$
隐藏单元
- sigmoid/tanh
  $\begin{matrix} (6) & g (z) = σ (z) \end{matrix}$ $g(z)=\sigma(z)\tag6$
  $\begin{matrix} (7) & g (z) = t a n h (z) = 2 σ (2 z) - 1 \end{matrix}$ $g(z)=tanh(z)=2\sigma(2z)-1\tag7$
  $\begin{matrix} (8) & σ (x) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{1 + e^{- x}} \end{matrix}$ $\sigma(x)=\frac{e^x}{1+e^x}=\frac{1}{1+e^{-x}}\tag8$
  $\begin{matrix} (9) & σ (x)' = σ (x) (1 - σ (x)) \end{matrix}$ $\sigma(x)\prime=\sigma(x)(1-\sigma(x))\tag9$
  $\begin{matrix} (10) & 1 - σ (x) = σ (- x) \end{matrix}$ $1-\sigma(x)=\sigma(-x)\tag{10}$
  缺点：
  a. sigmoid系函数两端扁平，十分易于饱和，simoid求导之梯度值在[0,1/4]，易于产生梯度消失。
  b. sigmoid函数的输出不是0均值的，这会导致下一层二等输入信号为非0均值，如果输入神经元是数据是正的，那么计算的梯度全为正数或负数，导致梯度下降锯齿形(之字形)晃动，导致收敛速度缓慢。若梯度是批数据累加的则权值的更新准确一些。
  c. tanh函数的输出是0均值的，在实际应用中比sigmoid好
  d. 非0均值会导致下一层的bias shift。bias shift是指输出的均值比输入的均值大的多。
- ReLU
  $\begin{matrix} (11) & g (z) = m a x (0, z) \end{matrix}$ $g(z)=max(0,z)\tag{11}$
  ReLU单侧抑制，左侧不能学习（Dying ReLU再也没有机会学习），它的优化与线性函数类似。
  什么叫Dying ReLU？
  假设ReL的输入为 $z_n=\sum_{i=0}^kw_ia_i^n$ ，经过ReLU后， $ReLU=max(0,z_n)$ ，假设一个简单的误差函数 $error=ReLU-y$ ，反向传播传回的梯度：
  $\begin{matrix} (12) & \frac{\partial e r r o r}{\partial z_{n}} = ζ_{n} = {\begin{cases} 1, & z_{n} \geq 0 \\ 0, & z_{n} < 0 \end{cases} \end{matrix}$ $\frac{\partial error}{\partial z_n}=\zeta_n= \begin{cases} 1, & z_n\geq 0\\ 0, & z_n< 0\\ \end{cases}\tag{12}$
  权值更新:
  $\begin{matrix} (13) & \frac{\partial e r r o r}{\partial w_{j}} = \frac{\partial e r r o r}{\partial z_{n}} * \frac{\partial z_{n}}{\partial w_{j}} = ζ_{n} * a_{j}^{n} = {\begin{cases} a_{j}^{n}, & z_{n} \geq 0 \\ 0, & z_{n} < 0 \end{cases} \end{matrix}$ $\frac{\partial error}{\partial w_j}=\frac{\partial error}{\partial z_n}*\frac{\partial z_n}{\partial w_j}=\zeta_n*a_j^n= \begin{cases} a_j^n, & z_n\geq 0\\ 0, & z_n< 0\\ \end{cases}\tag{13}$
  当梯度为0，权值则不再更新，可以注意到若所有的输入都位于左侧，返回的梯度为0，该神经元就死了，权值将不再被更新。
  该问题的产生是由于在某个batch更新时，使得权值变得过于小，对于任何输入都有 $z_n<0$ ，权值不再被更新。
  过大的学习率将会放大这一问题。
- Leaky ReLU
  $\begin{matrix} (14) & g (z) = m a x (α_{i} z, z) \end{matrix}$ $g(z)=max(\alpha_i z, z)\tag{14}$
  Leaky ReLU的左侧也能进行学习，将 $\alpha_i$ 固定为一个较小的常值，可以解决Dying ReLU问题
- PReLU
  $\begin{matrix} (15) & g (z) = m a x (α_{i} z, z) \end{matrix}$ $g(z)=max(\alpha_i z, z)\tag{15}$
  与 Leaky ReLU不同的是，PReLU的 $\alpha_i$ 并不是一个常值，它也是一个参数，学习出来的，在较小的数据集中容易过拟合
- ELU
  $\begin{matrix} (16) & g (z) = m a x (α (e^{z} - 1), z) \end{matrix}$ $g(z)=max(\alpha(e^z-1), z)\tag{16}$
  a. ReLU有bias shift问题，他的输出全为正值，没有负值。当激活值均值非0时，会对下一层造成一个bias，若激活值之间不能相互抵消，会对一下层的激活单元造成bias shift，如此叠加，单元越多，bias shift就越大。
  b. Leaky ReLU、 PReLU、 ELU可以取到负值，让激活单元可以更接近0，类似BN的效果，但降低了复杂度。
  c.相对 Leaky ReLU、 PReLU，ELU对于输入值较小具有软包和(最左则梯度近似0)性质，提升了对噪声的鲁棒性。
- maxout
  $\begin{matrix} (17) & g (z) = m a x_{j \in G} z_{j} \end{matrix}$ $g(z)=max_{j\in G}z_j\tag{17}$
  maxout可以以任意精度逼近任意凸函数学习激活函数本身，缺点是k倍增加了参数
  maxout以分段函数的形式去逼近凸函数，两端分段函数可以近似ReLU
初始化
从正则化的角度，我们希望网络的权值小一点，降低过拟合的风险，而从优化的角度，我们希望初始化的大一点，权值大能够传递更多的信息。
目比较流行初始化方法是Xavier初始化，采用启发式想法，将权值以 $w_{i,j}\sim U(-\sqrt{\frac{6}{n_{in}+n_{out}}},\sqrt{\frac{6}{n_{in}+n_{out}}})$ ，它的方差为 $\frac{2}{n_{in}+n_{out}}$ ，使得信号在经过多层神经网络后还能保持在合理范围。(不至于太大或太小)
反向传播
$l = - y^{T} \log s o f t m a x (W x) = - y^{T} \log s o f t m a x (a)$ $l=-y^T\log softmax(Wx)=-y^T\log softmax(a)$
softmax是元素级别的函数，返回的是向量
基础公式：
元素级别的函数求导 $df(x)=f\prime(x)\odot dx$
$y^T\cdot1=1$ ， $1^T(u\odot v)=u^Tv$ ，
推导：
$s o f t m a x (a) = \frac{e^{a}}{1^{T} \cdot e^{a}}$ $softmax(a)=\frac{e^a}{1^T\cdot e^a}$
$\begin{aligned} l & = - y^{T} l o g \frac{e^{a}}{1^{T} \cdot e^{a}} \\ = - y^{T} a + y^{T} \cdot 1 l o g (1^{T} \cdot e^{a}) \\ l & = - y^{T} a + l o g (1^{T} \cdot e^{a}) \\ d l & = - y^{T} d a + \frac{1^{T} \cdot d e^{a}}{1^{T} \cdot e^{a}} \\ = - y^{T} d a + \frac{1^{T} \cdot (e^{a} ⊙ d a)}{1^{T} \cdot e^{a}} \\ = - y^{T} d a + \frac{(e^{a})^{T} \cdot d a}{1^{T} + e^{a}} \\ = t r (- y^{T} d a + \frac{(e^{a})^{T} \cdot d a}{1^{T} \cdot e^{a}}) \\ = t r ((s o f t m a x (a) - y)^{T} d a) \end{aligned}$ $\begin{align} l&=-y^Tlog\frac{e^a}{1^T\cdot e^a}\notag\\ &=-y^Ta+y^T\cdot1log(1^T\cdot e^a)\notag\\ l&=-y^Ta+log(1^T\cdot e^a)\notag\\ dl&=-y^Tda+\frac{1^T\cdot de^a}{1^T\cdot e^a}\notag\\ &=-y^Tda+\frac{1^T\cdot (e^a\odot da)}{1^T\cdot e^a}\notag\\ &=-y^Tda+\frac{(e^a)^T\cdot da}{1^T+e^a}\notag\\ &=tr(-y^Tda+\frac{(e^a)^T\cdot da}{1^T\cdot e^a})\notag\\ &=tr((softmax(a)-y)^Tda)\notag\\ \end{align}$
故：
$\frac{\partial l}{\partial a} = s o r f t m a x (a) - y$ $\frac{\partial l}{\partial a}=sorftmax(a)-y$
$d l = t r ({\frac{\partial l}{\partial a}}^{T} d a) = t r ({\frac{\partial l}{\partial a}}^{T} d W x) = t r (x {\frac{\partial l}{\partial a}}^{T} d W)$ $dl= tr(\frac{\partial l}{\partial a}^Tda)=tr(\frac{\partial l}{\partial a}^TdWx)=tr(x\frac{\partial l}{\partial a}^TdW)$
$\frac{\partial l}{\partial w} = \frac{\partial l}{\partial a} x^{T} = (s o r f t m a x (W x) - y) x^{T}$ $\frac{\partial l}{\partial w}=\frac{\partial l}{\partial a}x^T=(sorftmax(Wx)-y)x^T$
以两层神经网络推导为例：
$l = - y^{T} \log s o f t m a x (W_{2} σ (W_{1} x))$ $l=-y^T\log softmax(W_2\sigma(W_1x))$
其中，令：
$a_{1} = W_{1} x$ $a_1=W_1x$
$h_{1} = σ (a_{1})$ $h_1=\sigma(a_1)$
$a_{2} = W_{2} h_{1}$ $a_2=W_2h_1$
由之上的推导，可得
$\frac{\partial l}{\partial a_{2}} = s o f t m a x (a_{2}) - y$ $\frac{\partial l}{\partial a_2}=softmax(a_2)-y$
对 $W_2求导$ ：
$d l = t r ({\frac{\partial l}{\partial a_{2}}}^{T} d a_{2}) = t r ({\frac{\partial l}{\partial a_{2}}}^{T} d W_{2} h_{1}) + t r ({\frac{\partial l}{\partial a_{2}}}^{T} W_{2} d h_{1})$ $dl=tr(\frac{\partial l}{\partial a_2}^Tda_2)=tr(\frac{\partial l}{\partial a_2}^TdW_2h_1)+tr(\frac{\partial l}{\partial a_2}^TW_2dh_1)$
$\frac{\partial l}{\partial W_{2}} = \frac{\partial l}{\partial a_{2}} h_{1}^{T}$ $\frac{\partial l}{\partial W_2}=\frac{\partial l}{\partial a_2}h_1^T$
$\frac{\partial l}{\partial h_{1}} = W_{2}^{T} \frac{\partial l}{\partial a_{2}}$ $\frac{\partial l}{\partial h_1}=W_2^T\frac{\partial l}{\partial a_2}$
对 $W_1求导$ ：
$t r ({\frac{\partial l}{\partial h_{1}}}^{T} d h_{1}) = t r ({\frac{\partial l}{\partial h_{1}}}^{T} (σ' (a_{1}) ⊙ d a_{1})) = t r ((\frac{\partial l}{\partial h_{1}} ⊙ σ' (a_{1}))^{T} d a_{1})$ $tr(\frac{\partial l}{\partial h_1}^Tdh_1)=tr(\frac{\partial l}{\partial h_1}^T(\sigma\prime(a_1)\odot da_1))=tr((\frac{\partial l}{\partial h_1}\odot \sigma\prime(a_1))^T da_1)$
$\frac{\partial l}{\partial a_{1}} = \frac{\partial l}{\partial h_{1}} ⊙ σ' (a_{1})$ $\frac{\partial l}{\partial a_1}=\frac{\partial l}{\partial h_1}\odot \sigma\prime(a_1)$
$t r ({\frac{\partial l}{\partial a_{1}}}^{T} d a_{1}) = t r ({\frac{\partial l}{\partial a_{1}}}^{T} d W_{1} x) = t r (x {\frac{\partial l}{\partial a_{1}}}^{T} d W_{1})$ $tr(\frac{\partial l}{\partial a_1}^Tda_1)=tr(\frac{\partial l}{\partial a_1}^TdW_1x)=tr(x\frac{\partial l}{\partial a_1}^TdW_1)$
$\frac{\partial l}{\partial W_{1}} = \frac{\partial l}{\partial a_{1}} x^{T}$ $\frac{\partial l}{\partial W_1}=\frac{\partial l}{\partial a_1}x^T$
多层神经网络推导：
记号：
$l o s s = C (y, a^{n})$ $loss=C(y,a^n)$
$a^{l} = a c t (w^{L} a^{l - 1} + b^{l}) = a c t (z^{l})$ $a^l=act(w^La^{l-1}+b^l)=act(z^l)$
推导最后一层的偏导
$t r ({\frac{\partial c}{\partial a^{n}}}^{T} d a^{n}) = t r ({\frac{\partial c}{\partial a^{n}}}^{T} (a c t' (z_{n}) ⊙ d z_{n})) = t r ((\frac{\partial c}{\partial a^{n}} ⊙ a c t' (z_{n}))^{T} d z_{n}))$ $tr(\frac {\partial c}{\partial a^n}^Tda^n)=tr(\frac {\partial c}{\partial a^n}^T(act\prime(z_n)\odot dz_n))=tr((\frac {\partial c}{\partial a^n}\odot act\prime(z_n) )^Tdz_n))$
固：
$g r a d^{n} = \frac{\partial c}{\partial z_{n}} = \frac{\partial c}{\partial a^{n}} ⊙ a c t' (z_{n})$ $grad^n=\frac{\partial c}{\partial z_n}=\frac {\partial c}{\partial a^n}\odot act\prime(z_n)$
展开全微分
$\begin{aligned} t r ({\frac{\partial c}{\partial z^{n}}}^{T} d z^{n}) = & t r ({\frac{\partial c}{\partial z^{n}}}^{T} d (w^{n} a^{n - 1} + b^{n})) \\ = & t r ({\frac{\partial c}{\partial z^{n}}}^{T} d w^{n} a^{n - 1}) \\ + & t r ({\frac{\partial c}{\partial z^{n}}}^{T} w^{n} d a^{n - 1}) \\ + & t r ({\frac{\partial c}{\partial z^{n}}}^{T} d b^{n}) \end{aligned}$ $\begin{align} tr(\frac {\partial c}{\partial z^n}^Tdz^n)=&tr(\frac {\partial c}{\partial z^n}^Td(w^na^{n-1}+b^n)) \notag\\ =&tr(\frac {\partial c}{\partial z^n}^Tdw^na^{n-1}) \notag \\ +&tr(\frac {\partial c}{\partial z^n}^Tw^nda^{n-1}) \notag \\ +&tr(\frac {\partial c}{\partial z^n}^Tdb^n)\notag \notag \end{align}$
上面三项分别对应着：
$\frac{\partial c}{\partial w^{n}} = \frac{\partial c}{\partial z^{n}} (a^{n - 1})^{T} = g r a d^{n} (a^{n - 1})^{T}$ $\frac {\partial c}{\partial w^n}=\frac {\partial c}{\partial z^n}(a^{n-1})^T=grad^n(a^{n-1})^T$
$\frac{\partial c}{\partial b^{n}} = \frac{\partial c}{\partial z^{n}} = g r a d^{n}$ $\frac {\partial c}{\partial b^n}=\frac {\partial c}{\partial z^n}=grad^n$
$\frac{\partial c}{\partial a^{n - 1}} = (w^{n})^{T} \frac{\partial c}{\partial z^{n}} = (w^{n})^{T} g r a d^{n}$ $\frac {\partial c}{\partial a^{n-1}}=(w^n)^T\frac {\partial c}{\partial z^n}=(w^n)^Tgrad^n$
向下一层传回梯度：
$t r ({\frac{\partial c}{\partial a^{n - 1}}}^{T} d a^{n - 1}) = t r ({\frac{\partial c}{\partial a^{n - 1}}}^{T} (a c t' (z_{n - 1}) ⊙ d z_{n - 1})) = t r ((\frac{\partial c}{\partial a^{n - 1}} ⊙ a c t' (z_{n - 1}))^{T} d z_{n - 1}))$ $tr(\frac {\partial c}{\partial a^{n-1}}^Tda^{n-1})=tr(\frac {\partial c}{\partial a^{n-1}}^T(act\prime(z_{n-1})\odot dz_{n-1}))=tr((\frac {\partial c}{\partial a^{n-1}}\odot act\prime(z_{n-1}) )^Tdz_{n-1}))$
$g r a d^{n - 1} = \frac{\partial c}{\partial z_{n - 1}} = \frac{\partial c}{\partial a^{n - 1}} ⊙ a c t' (z_{n - 1}) = ((w^{n})^{T} g r a d^{n}) ⊙ a c t' (z^{n - 1})$ $grad^{n-1}=\frac{\partial c}{\partial z_{n-1}}=\frac {\partial c}{\partial a^{n-1}}\odot act\prime(z_{n-1})=((w^n)^Tgrad^n )\odot act\prime(z^{n-1})$

深度学习(一) 损失函数、输出单元、激活函数、反向传播

深度学习(一) 损失函数、输出单元、激活函数、反向传播

深度前馈网络

猜你喜欢