《GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation》CVPR2024

摘要

Vision Transformers (ViTs) 在计算机视觉领域取得了革命性的进展,但其在资源受限设备上的部署仍然面临挑战,因为它们需要较高的计算量。为了加速预训练的ViTs,研究者们开发了包括令牌修剪和合并方法在内的技术,旨在减少参与计算的令牌数量。然而,这些方法存在一些限制,如修剪令牌导致图像信息丢失和令牌匹配过程中的效率问题。本文介绍了一种新颖的基于图的令牌传播(Graph-based Token Propagation, GTP)方法,以解决在有效ViTs中平衡模型效率和信息保留的挑战。GTP通过精心设计的信息传播机制,将不太重要的令牌信息传播到空间和语义上相连的重要令牌,从而减少计算复杂性,同时保留被消除令牌的关键信息。结合创新的令牌选择策略,GTP能有效识别要传播的图像令牌。广泛的实验验证了GTP的有效性,展示了效率和性能的提升。

  • 令牌修剪和合并通常关注于减少计算量,但可能无法有效保留所有重要信息。
  • 基于图的令牌传播方法不仅关注于减少计算量,还注重通过图结构来保留和传播被消除令牌的信息,从而在减少计算复杂性的同时,尽可能地保留关键的视觉信息。

概述

拟解决的问题: 论文旨在解决在资源受限的环境中部署ViTs时面临的高计算成本问题,特别是在不牺牲太多性能的情况下,减少模型的计算复杂性。

创新之处:

  1. 提出了一种新颖的基于图的令牌传播(GTP)方法,用于在减少计算量的同时保留关键信息。
  2. 引入了一种创新的令牌选择策略,该策略基于再生难度和广播能力来评估每个令牌的重要性。
  3. 设计了一种图基的令牌传播方法,通过多边关系在令牌之间保留信息,而不是仅依赖一对一的匹配和合并。
  4. 引入了注意力图稀疏化作为反平滑机制,以解决直接丢弃预训练ViT中的令牌后softmax激活导致的平滑问题。

方法

  • 稀疏图构建: 构建基于空间和语义关系的稀疏图,用于信息传播。
  • 令牌选择: 评估每个令牌的重要性,基于再生难度和广播能力。
  • 令牌总结: 通过图神经网络的消息传递机制,传播被消除令牌的信息到其邻居。
  • 注意力稀疏化: 通过过滤掉微小的注意力值来增强模型性能。

 3.1 图构建

GTP 将图像标记视为图中的节点,并根据标记之间的空间关系和语义关系构建稀疏图。

空间图:即是邻接矩阵

语义图: 利用余弦相似度计算Token之间的相似度

语义图的邻接矩阵A:token之间相似度大于阈值(确保每个标记最多有 M 个边)且相邻

混合图:通过整合空间图和语义图,生成一个混合图,有效地表示令牌之间的空间和语义关系。混合图的邻接矩阵 A 只是 空间图 和 语义图 的并集:

更新邻接矩阵: 在 GTP 中,图结构仅用于将信息从消除的标记传播到剩余的标记。因此,为消除选择的令牌永远不需要从自身收集信息。将图对称归一化为:

 3.2 token选择

快速有效的令牌选择策略对于识别哪些令牌可以传播和丢弃至关重要,而不会显着牺牲。从再生困难和传播能力两个方面评估令牌的重要性。

再生困难。假设如果在自注意力过程中主要由其他标记聚合,则该标记比其他标记不太重要。这些不太重要的标记可以被丢弃,因为它们更容易由其他标记重新生成,并且它们的信息在标记摘要结果中不太重要。具体来说,图像标记的再生难度分数由所有其他标记到该标记的注意的负和计算为:

 其中“-1”是为了除去自身和自身的注意力。

传播能力。尽管再生困难,但如果图像标记对自注意力计算中的其他标记有很大贡献,则图像标记也是必不可少的。我们通过将每个令牌的注意力分数添加到所有其他令牌来量化令牌的广播能力,并将分数表示为:

token选择。 考虑到再生难度分数 Γ 和广播能力分数 Ψ,我们保留具有最大 Γ × Ψ 值的 N - P 个标记并传播其余 P 个标记。传播的令牌用 Xp表示,而保留的令牌用 Xk 表示:

token传播。GTP将传播的令牌Xp广播到保留的令牌Xk

其中 α 是控制传播令牌特征大小的超参数。更新邻接矩阵:

3.3 注意稀疏化 

Graph-based Token Propagation (GTP)方法中的一个关键步骤,旨在解决因减少令牌数量而导致的过度平滑问题。

在Vision Transformer (ViT)中,通过自注意力机制,每个令牌都会对其他所有令牌产生一定的注意力。当使用令牌修剪或合并技术减少模型中的令牌数量时,剩余的令牌可能会倾向于对所有其他令牌分配相似的注意力分数,这导致注意力分布变得平滑,可能会损失一些重要的细节信息。

为了解决这个问题,GTP引入了比例注意力机制。在传统的softmax归一化之后,额外添加一个对数项来调整注意力分布,如下所示:

其中 s\in \mathbb{R}^{N\times 1} 表示每个令牌的大小。此外,我们使用 s^{k}s^{p} 分别表示保留标记和传播标记的大小。保留令牌的大小是根据它总结的标记的数量动态更新的:

注意图稀疏化。除了比例注意力之外,我们还通过过滤掉琐碎的注意力值来细化注意力图。特别是,我们在注意力图中保持最大的 \theta N^{2} 值,并为其余 \left ( 1-\theta \right ) N^{2} 元素分配一个零值,其中 N 是令牌的数量,θ ∈ [0, 1] 表示注意力稀疏性。注意力图稀疏化有助于将令牌注意力集中在最重要的信号上,从而缓解注意力图的平滑度并提高模型性能。 

猜你喜欢

转载自blog.csdn.net/qq_46981910/article/details/142338106