循环神经网络

1. 序列数据
2. 语言模型
3. RNN-循环神经网络
4. GRU（门控循环单元）
- 4.1 具体解释
5. LSTM（长短期记忆网络）
- 5.1 具体解释：

1. 序列数据

特点：

前后数据通常有关联性：
Cats average 15 hours of sleep a day.

例子：

Speech Recognition
Music Generation
Sentiment Classification
DNA Sequence Analysis
Machine Translation
Video Activity Recognition
Name Entity Recognition: 识别一句话中的人名。

2. 语言模型

NLP中常把文本看成离散时间序列，一段长度为 $T$ 的句子
$w_1,...,w_T$ ， $w_t$ 称为一个time step。

语言模型要给出一个句子的概率

$P(w_1,w_2,..,w_T)=\Pi_{t=1}^T P(w_t| w_1,...,w_{t-1})$

如：P(厨房里的石油用完了)<P(厨房里的食油用完了)

缺点：
时间步t的词需要考虑t-1步的词，计算量大。

3. RNN-循环神经网络

在这里插入图片描述

三个矩阵:U,V,W。所有t的计算都用这三个矩阵。[减少参数]
用Hidden State来记录历史信息，有效的处理数据的前后关联性。

3.1 RNN与全联接神经网络对比

在这里插入图片描述
RNN：

当前状态 $H_t$ 和历史信息 $H_{t-1}$ 和 $X_{t}$ 有关
激活函数使用Tanh，输出值域]-1,1[，防止数值呈指数级变化(比如考虑一个q<1的等比数列)。

3.2 文本生成的例子

一开始取 $H_0=0$
在这里插入图片描述
特点：

隐藏状态可以捕捉截至
参数与时间无关

3.3 反向传播 [Backpropagation Through Time]

以下面这个时间步为3（ $T = 3$ ）为例：有几条通路，就有几项相加。
在这里插入图片描述

Rq:
我们注意到

$\frac{\partial L}{\partial h_t}=\sum_{i=t}^T (W_{hh}^T)^{T-i}W_{qh}^{T} \frac{\partial L}{\partial O_{T+t-i}}$

$W_{hh}$ 有一个指数次方，这会导致梯度消失或梯度爆炸。这个解决方法就是GRU和LSTM。

4. GRU（门控循环单元）

Gated Recurrent Unit

在这里插入图片描述

与 $H_{t-1}$ 和 $X_t$ 有关：
$R_t = \sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)$

$Z_t = \sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)$

与 $H_{t-1}$ 和 $X_t$ 有关：
$\tilde{H}_{t} = tanh(X_tW_{xh}+(R_t \odot H_{t-1})W_{hh}+b_h)$

$H_t = Z_t\odot H_{t-1} + (1-Z_t)\odot \tilde{H}_{t-1}$

4.1 具体解释

重置门：哪些信息需要遗忘，使用Sigmoid作为激活函数，0表示遗忘，1表示保留。与上一个时刻的隐藏状态和当前输入有关。
$R_t=\sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)$
更新门：哪些信息需要注意。
$Z_t=\sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)$

候选隐藏状态： $\tilde{H_t}$ （重置门）
对上一时间步隐藏状态 $H_t$ 进行选择性遗忘，从而对历史信息更好地选择。

GRU 公式1:
$\tilde{H_t}=tanh(X_tW_{xh}+(R_t\odot H_{t-1})W_{hh}+b_h)$

$\odot$ 表示逐个元素相乘。

对比简单的RNN：

$H_t = tanh(X_tW_{xh}+H_{t-1}W_{hh}+b_h)$

隐藏状态：（更新门）

GRU 公式2:
$H_t = Z_t \odot H_{t-1}+(1-Z_t)\odot \tilde{H}_{t}$

GRU特点：

门机制采用Sigmoid函数，0表示遗忘，1表示保留。
如果更新从第一个时间步到t-1时间中，一直保持为 $Z_t=1$ ，信息可有效传递到当前时间步，因此解决了梯度消失的问题。
$H_t = Z_t \odot H_{t-1}+(1-Z_t)\odot \tilde{H}_{t}$

而简单RNN的 $H_t$ 一定和 $H_{t-1}$ 有关：
$H_t = tanh(X_tW_{xh}+H_{t-1}W_{hh}+b_h)$

5. LSTM（长短期记忆网络）

在这里插入图片描述

与 $H_{t-1}$ 和 $X_t$ 有关：
$F_t = \sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)$

$I_t = \sigma(X_tW_{xi}+H_{t-1}W_{hi}+b_i)$

$O_t = \sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o)$

与 $H_{t-1}$ 和 $X_t$ 有关：

$\tilde{C}_t = tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)$

$C_t = F_t \odot C_{t-1} + I_t \odot \tilde{C}_{t-1}$

$H_t = O_t \odot tanh(C_t)$

5.1 具体解释：

3个门：

遗忘门 $F_t$ ：有哪些信息需要遗忘，与上一时刻记忆细胞有关，类似于GRU中的 $Z_t$ ，0表示遗忘。

$F_t = \sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)$

输入门 $I_t$ ：哪些信息需要流入当前记忆细胞，与当前时刻候选记忆细胞 $\tilde{C}_t$ 有关。

$I_t = \sigma(X_tW_{xi}+H_{t-1}W_{hi}+b_i)$

输出门 $O_t$ ：哪些记忆信息 $C_t$ 流入隐藏状态 $H_t$

$O_t = \sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o)$

候选记忆细胞:
$\tilde{C_t}=tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)$

记忆细胞：特殊移除状态，存储历史时刻的信息。

$C_t=F_t\odot C_{t-1}+I_t\odot\tilde{C}_t$

隐藏状态：由输出门控制记忆细胞 $C_t$ 流入 $H_t$ 的信息。

$H_t = O_t \odot tanh(C_t)$

循环神经网络[复习]

循环神经网络

1. 序列数据

2. 语言模型

3. RNN-循环神经网络

3.1 RNN与全联接神经网络对比

3.2 文本生成的例子

3.3 反向传播 [Backpropagation Through Time]

4. GRU（门控循环单元）

4.1 具体解释

5. LSTM（长短期记忆网络）

5.1 具体解释：

目录

循环神经网络

1. 序列数据

2. 语言模型

3. RNN-循环神经网络

3.1 RNN与全联接神经网络对比

3.2 文本生成的例子

3.3 反向传播 [Backpropagation Through Time]

4. GRU（门控循环单元）

4.1 具体解释

5. LSTM（长短期记忆网络）

5.1 具体解释：

猜你喜欢

目录

热门文章