通过时间反向传播

本文基于《动手学深度学习》一书，给出了对应章节相对详细的推导。

一、RNN的反向传播推导

1.问题描述

这是RNN网络的t时刻的关系式：
$\left \{ \begin{array}{ll} h_t = W_{hx}x_t + W_{hh}h_{t-1} \\ O_t = W_{qh}h_t \\ \end{array} \right .$

设有损失函数
$\frac{1}{T}\sum_{t=1}^{n}l(O_t, y_t)$

欲求
$\frac{\partial L}{\partial W_{qh}}, \frac{\partial L}{\partial W_{hx}}, \frac{\partial L}{\partial W_{hh}}$
一些准备： 矩阵的链式求导和基本求导法则与原理是需要掌握的。

2.问题求解

首先，求解 $\frac{\partial L}{\partial W_{qh}}$
对于任意时刻 $t$ ，显然有：
$\frac{\partial L}{\partial O_t} = \frac{1}{T} \cdot \frac{\partial l(O_t, y_t)}{\partial O_t} \\ \mathrm{d}l = tr\left( {\left( \frac{\partial l}{\partial O_t} \right)}^T \cdot \mathrm{d}O_t \right) \\ O_t = W_{qh}h{t}$
因此，将 $O_t$ 带入微分式中，有：
$\mathrm{d}L = tr\left( \sum_{i=1}^{T}{\left( \frac{\partial l}{\partial O_t} \right)}^T \mathrm{d}W_{qh} \cdot h_t \right)$
将 $h_t$ 放到迹的右方，有：
$\mathrm{d}L = tr\left( \sum_{i=1}^{T}h_t{\left( \frac{\partial l}{\partial O_t} \right)}^T \mathrm{d}W_{qh} \right)$
因此：
$\frac{\partial L}{\partial W_{qh}} = \left( \sum_{i=1}^{T}h_t{\left( \frac{\partial l}{\partial O_t} \right)}^T \right)^T = \sum_{i=1}^{T} \frac{\partial l}{\partial O_t} {\left( h_t \right)}^T$
接下来我们尝试求解 $\frac{\partial L}{\partial W_{hx}},\frac{\partial L}{\partial W_{hh}}$
先从T时刻开始求解（这里的prod()表示了矩阵链式求导的法则）：
我们首先有：
$\left \{ \begin{array}{ll} h_t = W_{hx}x_t + W_{hh}h_{t-1} \\ O_t = W_{qh}h_t \\ \end{array} \right .$

$\frac{\partial L}{\partial h_T} = prod\left( \frac{\partial L}{\partial O_T}, \frac{\partial O_T}{\partial h_T} \right)$
对于T-1时刻，有
$\frac{\partial L}{\partial h_{T-1}} = prod\left( \frac{\partial L}{\partial O_{T-1}}, \frac{\partial O_{T-1}}{\partial h_{T-1}} \right) + prod\left( \frac{\partial L}{\partial h_T}, \frac{\partial h_T}{\partial h_{T-1}} \right)$
…
同理，对于t时刻， t < T，有：
$\frac{\partial L}{\partial h_t} = prod\left( \frac{\partial L}{\partial O_t}, \frac{\partial O_t}{\partial h_t} \right) + prod\left( \frac{\partial L}{\partial h_{t+1}}, \frac{\partial h_{t+1}}{\partial h_t} \right)$
求偏导方式如上求解 $\frac{\partial L}{\partial W_{qh}}$ 时使用的 化矩阵迹链式求导方法 所示，得到：
$\frac{\partial L}{\partial h_t} = W_{qh}^T \frac{\partial L}{\partial O_t} + W_{hh}^T \frac{\partial L}{\partial h_{t+1}}$
打开该递归公式可得:
$\frac{\partial L}{\partial h_t} = \sum_{i=t}^T \left( W_{hh}^T \right)^{T-i} W_{qh}^T \frac{\partial L}{\partial O_{T+t-i}}$
所以
$\frac{\partial L}{\partial W_{hx}} = prod\left( \frac{\partial L}{\partial h_t}, \frac{\partial h_t}{\partial W_{hx}} \right) \\ \frac{\partial L}{\partial W_{hh}} = prod\left( \frac{\partial L}{\partial h_t}, \frac{\partial h_t}{\partial W_{hh}} \right)$
继而有（此处的prod链式法则同上，请自行计算）：
$\frac{\partial L}{\partial W_{hx}} = \sum_{t=1}^T\frac{\partial L}{\partial h_t}x_t^T \\ \frac{\partial L}{\partial W_{hh}} = \sum_{t=1}^T\frac{\partial L}{\partial h_t}h_{t-1}^T$
再加上之前求解的：
$\frac{\partial L}{\partial W_{qh}} = \sum_{i=1}^{T} \frac{\partial l}{\partial O_t} {\left( h_t \right)}^T$
至此RNN的反向传播推导完毕。

二、LSTM的反向传播推导

1.问题描述

$\begin{array}{ll} I_t=\sigma\left( W_{xi}X_t + W_{hi}H_{t-1} + b_i \right) \\ F_t=\sigma\left( W_{xf}X_t + W_{hf}H_{t-1} + b_f \right) \\ O_t=\sigma\left( W_{xo}X_t + W_{ho}H_{t-1} + b_o \right) \\ C_t^{'}=\mathrm{tanh}\left( W_{xc}X_t + W_{hc}H_{t-1} + b_{c} \right) \\ C_t=F_t \odot C_{t-1} + I_t \odot C_t^{'} \\ H_t=O_t \odot \mathrm{tanh}(C_t) \\ Y_t=W_{qh}H_t + b_q \end{array}$