seq2seq学习

根据输出和输入序列不同数量rnn可以有多种不同的结构：
one to one 结构，仅仅只是简单的给一个输入得到一个输出，此处并未体现序列的特征，例如图像分类场景。
one to many 结构，给一个输入得到一系列输出，这种结构可用于生产图片描述的场景。
many to one 结构，给一系列输入得到一个输出，这种结构可用于文本情感分析，对一系列的文本输入进行分类，看是消极还是积极情感。
many to many 结构，给一些列输入得到一系列输出，这种结构可用于翻译或聊天对话场景，对输入的文本转换成另外一些列文本。
同步 many to many 结构，它是经典的rnn结构，前一输入的状态会带到下一个状态中，而且每个输入都会对应一个输出，我们最熟悉的就是用于字符预测了，同样也可以用于视频分类，对视频的帧打标签。

在 many to many 的两种模型中，可以看到第四和第五种是有差异的，经典的rnn结构的输入和输出序列必须要是等长，它的应用场景也比较有限。
而第四种它可以是输入和输出序列不等长，这种模型便是seq2seq模型，即Sequence to Sequence。
它实现了从一个序列到另外一个序列的转换，比如google曾用seq2seq模型加attention模型来实现了翻译功能，类似的还可以实现聊天机器人对话模型。

seq2seq属于encoder-decoder结构的一种，这里看看常见的encoder-decoder结构，基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。
encoder负责将输入序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义，这个过程称为编码。
而decoder则负责根据语义向量生成指定的序列，这个过程也称为解码。
https://blog.csdn.net/wangyangzhizhou/article/details/77883152

Attention模型的结果就是在每次识别时，首先计算每个特征的权值，然后对特征进行加权求和，权值越大，该特征对当前识别的贡献就大。
https://blog.csdn.net/jteng/article/details/52864401

猜你喜欢