多标签分类论文笔记 | CAUSALITY COMPENSATED ATTENTION FOR CONTEXTUAL BIASED VISUAL RECOGNITION

个人论文精读笔记,主要是翻译+心得,欢迎旁观,如果有兴趣可以在评论区留言,我们一起探讨。
Paper: https://openreview.net/pdf?id=8XqDnrmZQNF
Code: https://github.com/yu-gi-oh-leilei/IDA_2023ICLR

CAUSALITY COMPENSATED ATTENTION FOR CONTEXTUAL BIASED VISUAL RECOGNITION

因果关系补偿了背景偏见视觉识别的注意力机制

摘要

视觉注意并不总是捕捉到稳健预测所需的基本对象表示。注意模块不仅倾向于强调目标对象,还倾向于强调模块认为对训练有帮助的共同发生的上下文。这个问题的根源在于环境的混淆效应,导致物体和预测之间不正确的因果关系,而视觉注意力又进一步加剧了这种情况。为了学习对上下文偏见具有鲁棒性的因果对象特征,我们提出了一种新的视觉识别注意模块——介入双重注意(IDA)。具体来说,IDA采用了具有多个采样干预的两个注意层,以补偿对混杂上下文的注意。请注意,我们的方法与模型无关,因此可以在各种backbone上实现。大量的实验表明,该模型在分类和检测方面取得了显著的进步,计算量更少。特别是,我们在MS-COCO和PASCAL-VOC的多标签分类方面取得了最先进的结果。

1 介绍

为了解决视觉任务中的混杂因素,一种常见的方法是因果干预(Pearl et al ., 2000;Neuberg, 2003)。大多数现有方法中的干预措施(Wang et al ., 2021;Yang等,2021b;Yue等,2020;Zhang等人,2020)共享一个成熟度管道:定义给定元素之间的因果关系,实现混杂因素,并最终实现后门调整(Pearl, 2014)。然而,这些方法大多难以在注意机制上实现,且难以在不同任务间迁移。在本文中,我们证明了一个简单的对注意力的加权多采样操作可以被看作是对注意力和混淆上下文的干预。在此基础上,我们开发了一种新的因果注意模块:介入双重注意(IDA)。我们首先利用空间类感知注意(SCA)在特征图的不同位置提取特定类的信息。然后,在SCA上实现了点积注意(DPA)重新加权的多采样操作,这本质上是因果干预,并构建了一个对上下文偏见不敏感的更健壮的注意图。为了在性能和计算之间获得更好的平衡,我们有两个版本的IDA:轻版本(纯粹的两层关注)在有限的参数增量下实现了巨大的改进;重型模型(将DPA扩展为tranformer)在多标签分类任务上,与目前流行的基于变压器的模型相比,计算量更少,得到了最先进的结果。此外,在分类和检测方面的改进证明了我们的方法在一般视觉任务中的应用潜力。

我们的主要贡献可以概括如下:

  • 我们发现注意机制可能会加剧现有的情境偏见。从因果关系的角度进行了定性分析,并给出了实验结果来保证我们的论点。
  • 我们提出了一个有效的、与模型无关的注意模块介入双重注意(IDA)。结合两层不同的关注和多采样干预,该模块对上下文偏差具有鲁棒性,可以扩展到常用的transformer中以获得进一步的增强。
  • 我们进行了大量的实验来评估我们方法的优越性。丰富的定量和分析结果表明,我们的方法可以在MS-COCO (Lin et al ., 2014)和PASCAL-VOC (Everingham et al ., 2010)数据集上实现基于cnn和基于transformer的各种计算机视觉任务的显著改进。

3. 初步结论:语境偏见中的因果关系

在本节中,我们首先展示了视觉识别中上下文偏见的因果观点。如图2(a)所示,我们建立了一个简单的结构因果模型(SCM),它澄清了上下文(C )、图像内容(X)和预测(Y)之间的因果关系。在SCM中,每个环节表示两个实体之间的因果关系,例如,X→Y意味着效应Y是由X产生的。尽管在不同的任务中,描述上下文偏差的SCM的出现可能不同(Yue et al, 2020;Zhang等,2020;Yang等,2021b;Wang et al, 2021),其本质如图2(a)所示:一个额外的元素©分别指向我们想要构建映射的原因(X)和结果(Y)的一对。接下来,我们将详细探讨SCM背后的基本原理。

X→Y表示预测依赖于图像中的内容,这是期望的因果效应:学习将图像映射到其预测的网络。如果X中的目标是X和Y之间唯一的因果关系,则预测是无偏的。C→X表示上下文优先决定了图像如何由内容构造。例如,如果数据集中的所有勺子都出现在餐桌上,那么在描绘勺子的图像时,餐桌可能被视为必要的上下文。

C→Y的存在是因为语境信息对预测有相当大的影响,即对象本身及其语境都影响对其的识别。X←C→Y一起会产生混淆效应:网络会被愚弄,建立一个虚假的因果关系,例如,把餐桌作为勺子预测的原因。图2(b)进一步说明了注意力的作用。注意模块不能识别混杂效应,但即使这个因果联系是错误的,也专注于强化因果效应X→Y,导致情境偏见恶化。
在这里插入图片描述
消除混杂因素的唯一方法是因果干预。该操作保留了不可避免的上下文预测C→Y,并切断了对象依赖于特定上下文的不良链接。常见的干预实现方法有RCT、前门调整和后门调整(Pearl, 2014),而后门调整在计算机视觉中使用频率最高:
在这里插入图片描述
其中do-operation表示切断C→X边缘的因果干预,如图2(C )所示。在不受混杂路径干扰的情况下,网络总能学习到X和Y之间的无偏因果关系。这里,X可以扩展为注意力特征。因此,来自注意机制的强化可以导致更好的预测。

4. 方法

在本节中,我们提出了一个新的框架,加强了对上下文偏见的注意的鲁棒性。我们的模型概述如图3所示。我们首先介绍我们的基线注意力:空间类感知注意力(SCA),它可以获得特定于类的表示,但需要指导(第4.1节)。然后,为了保证注意模块强调适当的因果关系,我们推导并迁移了注意的后门调整,其中干预近似为SCA上重新加权的多次抽样(第4.2节)。最后,我们给出了我们方法中的具体实现,即在SCA (MS-SCA)上实现三个版本的多重采样,并将重新加权实现为点积注意(DPA)或transformer(第4.3节)。

4.1 类感知层

我们的空间类意识注意(SCA)的目标是使空间表征偏向于每个类别中最有可能出现的对象。给定一张图像,我们可以从基于cnn的或基于Transformer的backbone得到它的特征映射X∈R H×W×D,其中D, H, W表示通道的尺寸、高度和宽度。我们的目的是把X变成一个类别感知的表示E = {ek} K K =1∈R K×D,其中K是类的数量。对于每一个特定的类别k,由x中的空间特征的加权平均计算其表示ek,然后根据其唯一的空间信息对每个类别的特征进行改造。
在这里插入图片描述
其中P(Y = k|X = xi,j)通过将xi,j输入线性分类器f clf(.),然后进行softmax(.)正则化得到。

我们采用SCA作为基本关注点有两个原因:1)SCA对于多对象任务很有用。2) SCA更容易受到情境偏见的影响(Zhu et al ., 2017a;Ye et al ., 2020;赵等,2021)。相当多的作品采用了类似的类特定表示,由于其洞察力和可解释性,它们使模型能够捕获不同图像的不同区域的对象感知特征,这对于多实例任务非常重要。然而,纯SCA工作得很糟糕,因为它需要指导来捕获因果位置。SCA旨在强调每个类的关键位置,而“关键位置”可能是由于数据集中的偏差而导致的熟悉的背景。为了解决这个问题,其他作品主要采用复杂的结构(如GCN或Transformer)来进一步处理表示。相比之下,我们认为一个简单的干预(第4.2节)就足以激发潜在的类别意识注意。在附录A.4中,我们展示了我们的框架在其他经典注意力结构上也得到了改进。
在这里插入图片描述图3:我们提出的模型的概述。X可以是来自视觉骨干的图像特征,也可以是来自检测骨干的ROI特征。该模型由基线关注(SCA)、SCA上的多重采样(MS-SCA)和第二层关注层(DPA或transformer)组成。

4.2 因果关系的干预

P(Y |do(X = X))计算所有X变为X时Y的概率,这是不可行的。因此,借壳调整确实使用了现实统计(不做)来达到等同于做操作的效果。然而,仍然具有挑战性的是,我们需要对每个可能的c进行分层和采样,以便在Eq. 1中进行严格的后门调整。在实践中,很难量化每一个可能的上下文,因此P(C = C)不是明确可观察到的。

利用逆概率加权(Inverse Probability Weighting, IPW) (Pearl, 2009)的视角,进一步改革了调整,简化了实现,我们可以通过对观测数据(k, x)的抽样来近似c上的抽样。首先,我们重写Eq. 1,得到等价公式:
在这里插入图片描述
其中1/P(X = X |C = C)是所谓的逆权值。虽然很难对c进行采样,但在Eq. 4中,给定一个c,只有一个(k, x),因此,Eq. 4遇到的c的数量等于我们观察到的样本(k, x)的数量。因此,观察到的P(Y, X, C)可以用来近似P(Y = k|do(X = X)),即IPW的本质在于“将1/P(X = X |C = C)逆权赋给每一个观察到的P(Y, X, C),并表现得好像它们是从干预后的P(Y = k|do(X = X))中提取出来的”(Pearl, 2009)。因此,Eq. 4可进一步近似为:
在这里插入图片描述
它将C的求和转化为对X的采样,N是采样次数。这里,分子中的C可以按照IPW的惯例省略。然后,我们将求和中的项建模为类意识注意特征的s型激活分类概率:
在这里插入图片描述
其中,wk为k类的分类器权值,ek为第4.1节中k类的特征。同时,在遵循Rubin理论的分类模型中,分母即逆权值可以是倾向得分(Austin, 2011),其中归一化效果被划分为被处理的类别特异性组(∥wk∥2·∥e n k∥2)和未治疗的类别无关组(γ·∥e n k∥2)。此外,我们模型中的混杂因素(上下文)是可数的,因此采样的e n k是有限的,我们将∥e n k∥2简化为1。最后,我们将它们组合在一起,计算出最终的干预效果:
在这里插入图片描述
其中ein和P(ein k)的实现将在下一节中展开。在第5.3节中,我们将展示具有多个采样干预的SCA构成了“1 + 1 > 2”效应。

4.3 采样和重加权层

在Eq. 7中,对周的多次采样对注意力的干预至关重要。接下来,给定固定的特征维数和采样维数(例如,2048和512),我们描述了SCA (MS-SCA)上多个采样的几种版本:1)随机采样:完全随机是不平均的,对反向传播不友好,因此,我们为每个样本分配随机起点和随机间隔,并且单个样本的间隔是固定的。2)多头(Vaswani et al ., 2017):我们将通道平均分为N组,并将每组作为样本。3) Channel-shuffle:考虑到PixelShuffle的成功(Shi et al ., 2016;Liu et al ., 2021),通道上的洗牌也可能是有意义的。实际上,多头操作是间隔为1的通道洗牌。此外,信道洗牌可以提高不同分配间隔的采样时间。有趣的是,我们将通过实验证明我们的模型对这些选择不敏感,这表明一般的多采样行为是观察到的改进的主要原因。

最后是P(e n k)的实现。最简单的方法是将P(e n k)赋值为1/ n,它假设每个样本的先验是一致的。然而,每个样本的状态是不平等的。通道维度的不同位置关注不同的对象(Zhu等人,2017b),因此,为了获得更好的类别感知特征,有必要将权重偏向于更关键的样本,而不是平均值。另一种方法是引入可学习的重权参数,但由于学习能力有限,模型难以按比例放大。

因此,我们采用另一种方法来操作重加权。多次采样后,我们得到特定于样本的类感知特征E∈R B×N×K×D ',其中B为批大小,D '为采样维数。然后,我们将E的大小调整为序列E s∈R nx (B * K)×D '。现在,我们可以实现缩放的点积注意(Vaswani et al ., 2017) (DPA)来重新加权不同的样本,对于每个类别感知表示:
在这里插入图片描述
其中,Wq, Wk, Wv是将序列映射到公共子空间进行相似性度量的线性投影。到目前为止,我们已经介绍了轻量级版本的IDA。除了共享的KQV投影外,我们的方法几乎没有增加任何参数,并且优于所有具有可比计算的其他模型。此外,为了扩大模型,Eq. 8可以自然地扩展为transformer,提供了在计算和性能之间进行权衡的机会:
在这里插入图片描述
Eq. 8和Eq. 9可以继续迭代以构建更强的特定于类的表示,这将成为我们重量级版本的IDA。最后,将类感知表示输入到一个二进制分类器中,然后进行sigmoid激活,并将所有样本的平均logit作为该类的最终logit,其中分类器与Sec4.1中的f clf(.)共享相同的可学习权重。

5 实验

在这里插入图片描述

6 结论

在这项工作中,我们提出了一个自适应和有效的介入双重注意(IDA)视觉识别框架。研究结果表明,注意机制可能会加剧视觉任务中的情境偏见,而这种偏见是因果理论中的混杂因素造成的。然后,我们定义了对空间类意识注意(SCA)的干预,引导注意强化正确的因果关系,其中干预是通过多次采样和点积注意重加权来实现的。最后,在不同的数据集上进行了大量的实验,发现了分类和检测的改进,以更少的计算量和更好的性能优于目前的多标签分类,同时,各种烧蚀分析证明了我们的方法中不同组件的有效性。

猜你喜欢

转载自blog.csdn.net/ThomasCai001/article/details/133816122