题目:DeepNet: Scaling Transformers to 1,000 Layers
DeepNet: 将Transformer扩展到1000层
作者:Hongyu Wang,Shuming Ma,Li Dong,Shaohan Huang,Dongdong Zhang,Furu Wei
摘要 —— 在本文中,我们提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,我们引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随着理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式被限制。所提出的方法结合了Post-LN的良好性能和Pre-LN的稳定训练这两个最佳方面,使DEEPNORM成为首选的替代方案。我们成功地将Transformer扩展到1000层(即2500个注意力和前馈网络子层),这比之前的深Transformer深一个数量级。广泛的实验表明,DEEPNET在各种基