基于LSTM的seq2seq模型介绍以及相应的改进

简介

DNN模型在语言识别等任务上具有强大的能力,主要是因为DNN可以在适当步骤中进行并行计算,尽管DNN很灵活并很有用,但是DNN只能用于固定维度的输入以及输出的任务中,并且输入以及输出已知。因此,Ilya sutskever .et提出了基于LSTM模型的端到端的架构。其中用一个LSTM作为encoder,得到一个基于时间序列的向量表示,另外,用另一个LSTM网络作为decoder,从向量中抽取出sequence。

seq2seq

这里写图片描述

LSTM一个属性是将变长的sequence映射到一个固定长度的向量中去,在训练中,可以使用SGD对模型进行训练,另外,在训练中,可以将encoder的输入sequence倒序输入,在Ilya sutskever .et试验中,这种方法表现更好。
下面是几个改进的地方:
这里写图片描述

实验

实验参数

这里写图片描述

这里写图片描述

链接:
《sequence to sequence Learning with Neural network》
《A Neural Conversational Model》

发布了98 篇原创文章 · 获赞 337 · 访问量 48万+

猜你喜欢

转载自blog.csdn.net/yiyele/article/details/80813625
今日推荐