一、引言
在理解了ELMO和attention之后,在理解transformer就容易很多。transformer中会需要用到前面说的注意力机制,理解了transformer后我们还可以继续往下了解bert的原理。
二、结构
上面这个图大体就可以说明transform的过程了。它主要分为编码器和解码器两大部分,在上图中,左边部分表示编码器,右边表示解码器。
2.1编码器
在一个编码单元encoder中又有两层主要结构:一个是Multi-Head attention,一个是feedforward。我们的大体过程是首先是将Inputs经过一个embedding层后变成了用向量形式表示的稠密向量形式,再加上一个位置信息position,拼接后送入
2.1.2
2.2解码器