Training-Free Transformer Architecture Search With Zero-Cost Proxy Guided Evolution
题目:无需训练的Transformer架构搜索:零成本代理引导进化
作者:Qinqin Zhou; Kekai Sheng; Xiawu Zheng; Ke Li; Yonghong Tian; Jie Chen; Rongrong Ji
摘要
Transformers 已经展示了卓越的性能,然而,它们的架构设计是一个耗时的过程,需要专业知识和反复试验。因此,研究通过Transformer架构搜索(TAS)自动搜索高性能Transformer的有效方法是非常有价值的。为了提高搜索效率,无训练代理方法已在神经架构搜索(NAS)中被广泛采用。然而,这些代理在泛化到Transformer搜索空间方面被认为不够充分,这一点已通过几项研究和我们自己的实验得到证实。本文提出了一种名为TRansformer Architecture search with ZerO-cost pRoxy guided evolution (T-Ra