DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention

https://arxiv.org/pdf/2410.08582v1

摘要

带有各种注意力模块的视觉Transformer在视觉任务上已表现出卓越的性能。虽然使用稀疏自适应注意力(如在DAT中)在图像分类任务中取得了显著成果,但在对语义分割任务进行微调时,由可变形点选择的关键值对缺乏语义相关性。BiFormer中的查询感知稀疏注意力旨在使每个查询关注前 k k k个路由区域。然而,在注意力计算过程中,所选的关键值对受到过多不相关查询的影响,从而降低了对更重要查询的关注度。为了解决这些问题,我们提出了可变形双级路由注意力(DBRA)模块,该模块使用代理查询优化关键值对的选择,并增强了注意力图中查询的可解释性。在此基础上

猜你喜欢

转载自blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142925493