TPAMI 2024 | DeepNet: 将Transformer扩展到1000层

题目:DeepNet: Scaling Transformers to 1,000 Layers

DeepNet: 将Transformer扩展到1000层

作者:Hongyu Wang,Shuming Ma,Li Dong,Shaohan Huang,Dongdong Zhang,Furu Wei


摘要 —— 在本文中,我们提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,我们引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随着理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式被限制。所提出的方法结合了Post-LN的良好性能和Pre-LN的稳定训练这两个最佳方面,使DEEPNORM成为首选的替代方案。我们成功地将Transformer扩展到1000层(即2500个注意力和前馈网络子层),这比之前的深Transformer深一个数量级。广泛的实验表明,DEEPNET在各种基

猜你喜欢

转载自blog.csdn.net/qq_42722197/article/details/142735816