[DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013555719/article/details/82118462

5.1循环序列模型

觉得有用的话,欢迎一起讨论相互学习~Follow Me

1.10长短期记忆网络(Long short term memory)LSTM

Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.

门控循环神经网络单元GRU

长短期记忆网络LSTM

  • 记忆细胞更新:
    C ˘ < t > = t a n h ( W c [ a < t 1 > , x < t > ] + b c )
  • 更新门:
    γ u = σ ( W u [ a < t 1 > , x < t > ] + b u )
  • 遗忘门–遗忘门在GRU中相当于 ( 1 γ u ) ,在LSTM中使用专用的 γ f 代替:
    γ f = σ ( W f [ a < t 1 > , x < t > ] + b f )
  • 输出门:
    γ o = σ ( W o [ a < t 1 > , x < t > ] + b o )
  • 记忆细胞:
    c < t > = γ u c ˘ < t > + γ f c < t 1 >
  • a < t > = γ o t a n h ( c < t > )



1.11双向神经网络Bidirectional RNN

  • 这个模型可以让你在序列的某处不仅可以获取之前的信息,还可以获取未来的信息
  • 在这个句子中,根据原始的模型,并不能区别泰迪熊和美国前总统泰迪的区别。必须要使用到Teddy词后的信息才能识别出Teddy的意义。无论这些单元是标准的RNN块还是GRU单元或者是LSTM单元,前向的结构都不能够识别出Teddy的意义。
  • 双向神经网络结构如下图所示:

    这样的网络构成了一个无环图,其中信息的流向,如下动图中显示:

1.12深层循环神经网络Deepl RNNs

  • 通过计算 a [ 2 ] < 3 > 的值来了解RNN的计算过程, a [ 2 ] < 3 > 有两个输入,一个是从下面传上来的 a [ 1 ] < 3 > ,一个是从左边传进来的输入 a [ 2 ] < 2 >
    a [ 2 ] < 3 > = g ( W a [ 2 ] [ a [ 2 ] < 2 > , a [ 1 ] < 3 > ] + b a [ 2 ] )
  • 对于普通的神经网络,也许可以经常看见100层神经网络,但是对于RNN来说,有三层就已经有很多参数了,因为有时间的维度,RNN会变得相当大,一般很少会看见RNN堆叠到很深的层次。
  • 但是深层次的预测却经常见到,即第三层的输出会连接上更深的层,但是水平方向上却不相连

猜你喜欢

转载自blog.csdn.net/u013555719/article/details/82118462