Transformer 中的 Pre-LN 与 Post-LN

文献“On Layer Normalization in the Transformer Architecture”中提出了一种 pre-LN 的层标准化方法,即把 LN 加在残差连接residual之前,Transformer中原始的层标准化为post-LN,即把 LN 在残差连接residual之后,这样能够提升 Transformer 的稳定性。

Post-LN 的方式如下图所示。这也是Transformer的原始方式,Post-LN 是在每个子层的最后输出位置加上层标准化

Pre-LN 的方式如下图所示。Pre-LN 是将每个子层的结束位置的层标准化提前到了该层的开始位置。

猜你喜欢

转载自blog.csdn.net/Flag_ing/article/details/137728725
ln