深度学习前向后向传播公式推导

假设，该样本3种特征，分别为 $x_1$ , $x_2$ , $x_3$ ,

1.1单个样本，用标量表示

那么对于向前传播的公式可以得到:
$z=w_1x_1+w_2x_2+w_3x_3+b$ ,

激活函数用（ $activation \ function$ ）:
$a=g(z)$ (其中 $g$ 可以为 $relu$ 或者 $sigmoid$ 函数)

损耗函数（ $cost\ function$ ）:
$\mathcal{L}(a, y)= - y\log(a) - (1-y) \log(1-a)$

反向传播需要用到的导数可以为:

$dz=da* g'(z)$
$dw_1=x_1 *dz$
$dw_3=x_2 *dz$
$dw_2=x_3 *dz$
$db=dz$
$dx_1=w_1 *dz$
$dx_2=w_2 *dz$
$dx_3=w_3 *dz$

根据以上公式就可以对 $w,b$ 进行梯度下降的计算( $\mathcal{a}$ 为学习速率)
$w=w-\mathcal{a}*dw$
$b=b-\mathcal{a}*db$

1.2 多个样本，向量表示

假设向量
$W = \begin{bmatrix}w_{11} w_{12} w_{13} \\ w_{21} w_{22} w_{23} \\ w_{31} w_{32} w_{33}\\ ...\\ w_{h1} w_{h2} w_{h3} \end{bmatrix}$ 维度为 $h*3$ , $h$ 为隐藏层节点数，下同,
并且 $X = \begin{bmatrix}x_{11} x_{21} ... x_{m1} \\ x_{12} x_{22} ... x_{m2} \\ x_{13} x_{23} ... x_{m3}\end{bmatrix}$ ，维度为 $3*m$

损耗函数为

J = - 1 m \sum i = 0 m (y (i) log (a [L] (i)) + (1 - y (i)) log (1 - a [L] (i)))

$J = - \frac{1}{m} \sum\limits_{i = 0}^{m} \large{(} \small y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L] (i)}\right) \large{)} \small$

那么对于向前传播的公式可以得到:
$Z=W*X+B$

激活函数用（ $activation \ function$ ）:
$A=g(Z)$

损耗函数（ $cost\ function$ ）:
$\mathcal{L}(A, Y)= - Y\log(A) - (1-Y) \log(1-Y)$

从上面看，和之前用标量表示的方法形式上很相似，再来看下用反向传播需要用到的导数

$dZ=dA* g'(Z)$
$dZ = \begin{bmatrix}dz_{11} dz_{21} dz_{31} ... dz_{m1} \\ dz_{12} dz_{22} dz_{32} ... dz_{m2} \\ ... \\ dz_{1h} dz_{2h} dz_{3h} ... dz_{mh}\end{bmatrix}$

Z矩阵的维度为 $h*m$

下面计算 $dW$ ，这个略有点复杂，先来看下单个 $dw_{11}$ ,由于有m个样本，则 $dw_{11}=1/m *(x_{11}*dz_{11}+x_{21}*dz_{21}+x_{31}*dz_{31}+...+x_{m1}*dz_{m1})$ ,那么
$dW=1/m * \sum\limits_{i=1}^{m}dZ*X^{T}$ ,为什么不是 $X*dZ^T$ ?是因为 $W$ 的维度为 $h*m$ ,
同理可以得到
$dB=1/m * \sum\limits_{i=1}^{m}dZ$ ,
再来看下 $dX$ 如何计算，其实和计算 $dW$ 非常相似，只不过现在把 $X$ 看成是自变量,来看下 $dx_{11}$ 的计算公式
$dx_{11}=(w_{11}*dz_{11}+w_{21}*dz_{21}+...+w_{h1}*dz_{h1})$
所以 $dX= W^T*dZ$

下面推广到对于L层的公式

d W [l] = \partial  \partial W [ l ] = 1 m d Z [l] A [l - 1] T

$dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T}$

d b [l] = \partial  \partial b [ l ] = 1 m \sum i = 1 m d Z [l] (i)

$db^{[l]} = \frac{\partial \mathcal{L} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}$

d A [l - 1] = \partial  \partial A [ l - 1 ] = W [l] T d Z [l]

$dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]}$