2022IJCAI速读:SparseTT,使用稀疏Transformers进行视觉跟踪

原文标题:SparseTT: Visual Tracking with Sparse Transformers

中文标题:SparseTT:使用稀疏Transformers进行视觉跟踪

代码地址: GitHub - fzh0917/SparseTT: The official implementation for paper "SparseTT: Visual Tracking with Sparse Transformers"

具体见:2022IJCAI:SparseTT,使用稀疏Transformers进行视觉跟踪-CSDN博客

Abstract

        Transformers 已成功应用于视觉跟踪任务并显着提升了跟踪性能。 旨在模拟远程依赖关系的自注意力机制是 Transformers 成功的关键。然而,自注意力缺乏对搜索区域中最相关信息的关注,因此很容易被背景分散注意力。在本文中,我们通过将最相关的信息集中在搜索区域中,通过稀疏注意力机制来缓解这个问题,从而实现更准确的跟踪。 此外,我们引入了双头预测器来提高前景背景分类和目标边界框回归的准确性,从而进一步提高了跟踪性能。大量实验表明,在没有附加功能的情况下,我们的方法在以 40 FPS 运行时,显着优于 LaSOT、GOT-10k、TrackingNet 和 UAV123 上最先进的方法。值得注意的是,与 TransT 相比,我们方法的训练时间减少了 75%。

1. Introduction

        视觉跟踪旨在根据目标的初始状态预测其未来状态。它的应用非常广泛,例如人机交互、视频监控、自动驾驶等。大多数现有方法通过序列预测框架解决跟踪问题,其中它们根据初始状态和先前状态估计当前状态。因此,在每个时间片中给出准确的状态非常重要,否则错误会累积并导致跟踪失败。人们付出了巨大的努力来提高跟踪精度,即目标边界框的精度。然而,目标变形、部分遮挡和尺度变化等挑战仍然是阻碍它们完美跟踪的巨大障碍。原因可能是这些方法大多采用互相关运算来衡量目标模板与搜索区域之间的相似性,这可能会陷入局部最优。

        最近,TransT [Chen et al., 2021] 和 DTT [Yu et al., 2021] 通过用 Transformer [Vaswani et al., 2017] 替换相关性来提高跟踪性能。然而,用 Transformers 构建跟踪器会带来一个新问题:Transformers 中 self-attention 的全局视角导致主要信息(例如搜索区域中的目标)聚焦不足,而次要信息(例如搜索区域中的背景)过度聚焦,使前景和背景之间的边缘区域变得模糊,从而降低跟踪性能。

        在本文中,我们通过专注于搜索区域最相关的信息来解决这个问题,这是通过稀疏 Transformer 实现的。与之前作品中使用的普通 Transformer 不同,稀疏 Transformer 旨在关注主要信息,即使在严重的目标变形、部分遮挡、尺度变化等情况下,也使目标更具判别力,目标的边界框也更加准确 ,如图1所示。

总之,这项工作的主要贡献有三个方面。

(1)我们提出了一个目标聚焦网络,它能够聚焦搜索区域中感兴趣的目标,并突出显示最相关信息的特征,以便更好地估计目标的状态。

(2)提出了一种基于稀疏Transformer的Siamese跟踪框架,该框架具有很强的处理目标变形、局部遮挡、尺度变化等问题的能力

(3)广泛的实验表明,我们的方法优于在LaSOT,GOT10k,TrackingNet和UAV123上最先进的方法,同时以40 FPS运行,证明了我们方法的优越性。

2. Related Work

        Siamese Trackers. 在Siamese视觉跟踪器中,相互关系被广泛用于衡量目标模板与搜索区域之间的相似度。如朴素互相关[Bertinetto等人,2016]、深度互相关[Li等人,2019;Xu et al.,2020],逐像素互关[Yan et al., 2021b],像素到全局匹配互关[Liao et al.,2020]等。然而,相互关联执行的是局部线性匹配过程,容易陷入局部最优[Chen等,2021]。此外,相互关联破坏了输入特征的语义信息,这不利于准确感知目标边界。大多数Siamese跟踪器在处理目标变形、局部遮挡、尺度变化等方面仍然存在困难。

        Transformer in Visual Tracking.近年来,Transformer 已成功应用于视觉跟踪领域。STARK [Yan等人,2021a]借鉴DETR [Carion等人,2020]的灵感,将目标跟踪作为一个边界框预测问题,并使用编码器-解码器transformer来解决这个问题,其中编码器对目标和搜索区域之间的全局时空特征依赖关系进行建模解码器学习查询嵌入来预测目标的空间位置。它在视觉跟踪方面取得了优异的性能。TrDiMP [Wang等人,2021]设计了一个类似Siamese的跟踪管道,其中两个分支分别由CNN主干网后接transformer编码器和transformer解码器构建。Transformer 用于增强目标模板和搜索区域。与之前的Siamese跟踪器类似,TrDiMP 应用互相关来测量目标模板和搜索区域之间的相似性,这可能会妨碍跟踪器的高性能跟踪。注意到这一缺点,TransT 和 DTT 提出用 Transformer 代替互相关,从而生成融合特征而不是响应分数。由于融合特征包含比响应分数更丰富的语义信息,因此这些方法比以前的连体跟踪器实现了更准确的跟踪。

        Transformers 中的 Self-attention 专门用于对远程依赖关系进行建模,使其擅长捕获全局信息但缺乏对搜索区域中最相关信息的关注。为了进一步增强 Transformer 跟踪器,我们通过稀疏注意力机制缓解了上述自注意力的缺点。这个想法的灵感来自[Zhao et al., 2019]。 我们采用了[Zhao et al., 2019]中的稀疏Transformer 来适应视觉跟踪任务,并提出了一种带有编码器-解码器稀疏 Transformer 的全新端到端Siamese跟踪器。在稀疏注意力机制的驱动下,稀疏 Transformer 聚焦于搜索区域中最相关的信息,从而更有效地抑制干扰跟踪的干扰背景。

3. Method

        我们提出了一种用于视觉跟踪的Siamese架构,该架构由特征提取网络、目标聚焦网络和双头预测器组成,如下图所示。特征提取网络是一个权重共享的骨干网络利用稀疏transformer构建目标聚焦网络生成目标聚焦特征双头预测器区分前景和背景,输出目标的边界框

4. Conclusion

        在这项工作中,我们通过一种新颖的稀疏 Transformer 跟踪器来增强基于 Transformer 的视觉跟踪。Transformer 中的稀疏自注意力机制缓解了普通自注意力机制因集中于全局背景而忽略最相关信息的问题,从而突出了搜索区域中的潜在目标。此外,引入双头预测器来提高分类和回归的准确性。实验表明,我们的方法在以实时速度运行时,可以在多个数据集上显著优于最先进的方法,这证明了我们方法的优越性和适用性。此外,我们方法的训练时间仅为 TransT 的 25%。总的来说,这是进一步研究的新的良好基线。