【LSTM】LSTM cell的门结构学习笔记

文章目录

1. LSTM cell

如文章 LSTM网络与参数学习笔记中介绍, LSTM cell指的是一个包含隐藏层所有神经元的结构.
但是LSTM门控单元的公式如何理解、门和LSTM cell神经元如何对应、门函数的参数维度、不同时间步不同隐藏层之间数据如何传递等, 这些问题将在本文厘清

2. 门结构

RNN存在长期记忆逐渐消失以及梯度消失/爆炸的问题
LSTM通过引入cell state保存长期记忆, 通过设置精妙的门控机制很大程度缓解梯度消失/爆炸问题.
LSTM中有三个门, 分别是遗忘门, 输入门和输出门
- 遗忘门: f门
  - 决定我们会从细胞状态中丢弃什么信息
  - 它接收 $h_{t-1}$ 和 $x_{t}$ 作为输入参数，通过 $s i g m o i d$ 层得到对应的遗忘门的参数
  - 弄清楚今天发生的事情（输入 $x$ ）和最近发生的事情（隐藏状态 $h$ ），二者会影响你对情况的长期判断（细胞状态 $C$ ）
- 输入门: i门
  - 确定什么样的新信息被存放在细胞状态中
  - $s i g m o i d$ 层得到输入门参数 $i_t$ , 确定要更新的信息, $t anh$ 层产生新的候选值 $\widetilde{C}_t$ . 最后将 $i_t$ 和 $\widetilde{C}_t$ 相乘得到更新的信息；同时将上面得到的遗忘门 $f_t$ 和旧元胞状态 $C_{t-1}$ 相乘，以忘掉其中的一些信息。二者相结合，便得到更新后的状态 $C_t$
  - 最近发生的事情（隐藏状态 $h$ ）和今天发生的事情（输入 $x$ ）中的哪些信息需要记录到你对所处情况的长远判断中(细胞状态 $C$ )
- 输出门：o门
  - 计算最后的输出信息
  - 通过 $t anh$ 层将细胞状态的值规范到 $-1\sim 1$ 之间, 然后由 $s i g m o i d$ 层得到输出门参数 $o_t$ , 最后将 $o_t$ 与规范化后的细胞状态点乘, 得到最终过滤后的结果 $h_t$
  - 得到所处情况的短期判断, 比如近期跟老板提加薪会不会答应

3. 门的公式

首先回顾输入和输出的维度

batch_first = true

input(batch_size, seq_len, input_size)
output(batch_size, seq_len, hidden_size * num_directions)

batch_first = false

input(seq_len, batch_size, input_size)
output(seq_len, batch_size, hidden_size * num_directions)

遗忘门

公式：
输入： $h_{t-1}$ , $x_{t}$ 的联合，即 $h_{t-1}, x_{t}]$
输出：由于使用了 $s i g m o i d$ 函数，输出值在 $0\sim 1$ 之间。0表示完全丢弃，1表示完全保留

维度：如下。 $f_t$ 的维度是hidden_size，也就是 $s i g m o i d$ 层有hidden_size个神经元

变量	维度
$h_{t-1}$	hidden_size
$x_{t}$	feature_size
$h_{t-1}, x_{t}]$	hidden_size + feature_size
$W_{f}$	[hidden_size, hidden_size + feature_size]
$b_{f}$	hidden_size
$f_{t}$	hidden_size

公式合并

输入门

公式：
输入： $i_t$ 和 $\widetilde{C}_t$ 都以 $h_{t-1}, x_{t}]$ 为输入； $i_t$ 通过 $s i g m o i d$ 层来实现； $\widetilde{C}_t$ 通过 $t anh$ 层来实现
输出：
- 同样的 $i_t$ 在 $0\sim 1$ 之间, $\widetilde{C} _{t}$ ^在 $-1\sim 1$ 之间; *不是矩阵乘法, 是对应元素点乘
- 将要更新的信息 $i_t*\widetilde{C} _{t}$ 和要忘记的信息 $f_t*C_{t-1}$ 相结合得到更新后的状态 $C_t$
含义：
- $f*C_{t-1}$ 的点乘(按元素相乘)实际上是在决定哪些信息从上一时刻的cell state中保留下来，哪些被遗忘。保留和遗忘的比例就是 $f$ 的值
- $i_t*\widetilde{C} _{t}$ 表示有多少cell state候选值的新信息要更新到cell state中，更新的比例就是输入门 $i_t$ 的值
- $C_t=f_t*C_{t-1}+i_t*\widetilde{C} _{t}$ 将旧的信息(可能已被遗忘部分)与新的信息结合，形成当前时刻的cell state

维度：如下。 $s i g m o i d$ 层有hidden_size个神经元， $t anh$ 层有hidden_size个神经元

变量	维度
$h_{t-1}$	hidden_size
$x_{t}$	feature_size
$h_{t-1}, x_{t}]$	hidden_size + feature_size
$i_{t}$	hidden_size
$\widetilde{C} _{t}$	hidden_size
$C_{t-1}$	hidden_size
$C_{t}$	hidden_size
$W_{i}$	[hidden_size, hidden_size + feature_size]
$W_{C}$	[hidden_size, hidden_size + feature_size]

公式合并：

输出门

公式
输入： $o_t$ 以 $h_{t-1}, x_{t}]$ 为输入。 $C_t$ 需要经过 $t anh$ 层进行值缩放
输出：这里的输出不是LSTM网络的输出，LSTM网络输出包括网络的 $o u tp u t$ 和 $h_n, c_n$
含义：
- $tanh(C_t)$ 将cell state的值压缩到-1和1之间，使得信息的表示更加集中
- $o_t*tanh(C_t)$ 的点乘决定cell state的哪些信息将被传到隐藏状态中，压缩后的cell state的传入比例通过 $o_t$ 的值来控制

维度：如下。 $s i g m o i d$ 层有hidden_size个神经元， $t anh$ 层也有hidden_size哥神经元；*是点乘，按元素相乘

变量	维度
$o_{t}$	hidden_size
$h_{t}$	feature_size
$W_o$	[hidden_size, hidden_size + feature_size]

公式合并：

4. 门的参数

参数矩阵

参数维度

变量	维度
$x_t, h_{t-1},f_t, i_t, \widetilde{C} _{t}, C_{t-1},C_t,o_t$	hidden_size
$x_{t}$	feature_size
$h_{t-1}, x_{t}]$	hidden_size + feature_size
$W_{f},W_{i},W_{C},W_{o}$	[hidden_size, hidden_size + feature_size]
$b_f, b_i, b_C, b_o$	hidden_size
$s i g m o i d$ 网络， $t anh$ 网络	hidden_size 个神经元
$*$	对应元素点乘，维度不变

5. 重点关系厘清

图1

(1) 图中黄色框都是前馈神经网络, 神经元个数都是hidden_size个, 激活函数就是sigmoid和tanh
(2) 主要涉及到的参数就是 $W_{f},W_{i},W_{C},W_{o}$ 权重参数和 $b_f, b_i, b_C, b_o$ 偏置参数
(3) 这些参数不是存在于神经元的数据结构中，而是存在于神经元之间的连接。由此理解，网络的要点就是"连接"，神经元只是对应的数学运算

图2

(4) LSTM cell的整个隐藏层实现了这三个门，这三个门是LSTM cell的一部分
(5) LSTM cell的hidden_size是一个超参，是遗忘门/输入门/输出门的神经元个数
(6) 遗忘门/输入门/输出门各自维护自己的神经网络，不是共用神经网络。如图1中每个黄色框都是一个神经网络
(7) 每个门都有一组自己的权重和参数，也就是章节4中剃刀的W和b参数，这些参数在所有时刻是权值共享的，权值随着时间步在不断地更新
(8) b的参数个数 $4*hidden\_size$ 个，W的参数个数 $4*(hidden\_size * (hidden\_size + feature\_size))$ ，即 $4*num\_units*(h_{t-1}+x_t)$
(9) 每个门的神经元个数也决定了其输出的维度

图3

(10) 如上图，输出门和神经网络的输出不是同一个东西。输出门得到的 $h_t$ 只是短期状态信息，输入到下一时刻或下一层使用；而LSTM网络的最终输出是输出层接 $s i g m o i d / so f t ma x$ 等全连接层后的结果

图4

(11) 如上图，多层LSTM的情况， $h_t$ 横向传递给下一时刻作为 $h_{t-1}$ ，纵向传递给下一层作为 $x_t$

创作不易，如有帮助，请 点赞收藏 支持

[参考文章]
[1].通俗理解门的原理, 推荐
[2].门的公式的衔接和多层LSTM输出的关系
[3].同样，门的公式
[4].cell的内部参数图和公式推导
[5].参考逻辑结构：门和神经元之间的关系, 推荐
[6].对hidden_size的理解，门的计算过程
[7].反向传播的推导
[8].反向传播算法推导过程

created by shuaixio, 2024.05.21