TPAMI 2024 | 走向理解AdamW的收敛与泛化

题目:Towards Understanding Convergence and Generalization of AdamW

走向理解AdamW的收敛与泛化

作者:Pan Zhou; Xingyu Xie; Zhouchen Lin; Shuicheng Yan


摘要

AdamW 通过在每次训练迭代中添加一个分离的权重衰减来修改 Adam,以衰减网络权重。对于自适应算法而言,这种分离的权重衰减不会影响特定的优化步骤,并且与广泛使用的 ℓ 2 \ell_2

猜你喜欢

转载自blog.csdn.net/qq_42722197/article/details/142649875
今日推荐