设计了一种新颖的模块来融合全局注意力信息和局部注意力信息获得了较大的提升。
AAAI2021
论文地址：https://arxiv.org/abs/2012.07248

1. 总述

本文的出发点在于作者认为人类的视觉注意力是一种类似于top-down的机制（人往往先关注一个物体的轮廓，然后再去关注物体的细节），而现有工作中却没有很好地来探索这个机制，因此作者希望可以提出一种综合global和local信息的注意力机制，以更好地帮助网络提取物体特征。
从此出发，作者提出自上而下的注意力框架（TDAF）来捕获自上而下的注意力，它可以在大多数现有模型中使用。TDAF主要包含两种部分：R2DNS和ANAR。这样设计的递归双向嵌套结构（Recursive Dual Directional Nested Structure，R2DNS）形成了两组正交路径，即结构路径和递归路径，分别提取了自下而上的注意力特征和自上而下的注意力特征。

2. R2DNS结构

在这里插入图片描述

上图为作者提出的R2DNS模块，其中的红线（横向）是递归路径，提取自上而下的特征（细节信息），而蓝线（纵向）是结构路径，提取自下而上的特征（轮廓信息）。

3. ANAR结构

在这里插入图片描述

类似于一个沙漏模块，ANAR首先降低分辨率以扩大感受野，然后用反卷积层在下一流程中将特征映射到基本特征的相同大小。“SC” 表示跳远连接，可帮助捕获多尺度信息。

4. 实验结果与可视化

对于图像分类，与基准ResNet相比，带有TDAF的ResNet在ImageNet上实现了2.0的提升。对于目标检测，用于FCOS获得了2.7的提升。对于姿势估计，TDAF将基线提高了1.6。对于动作识别，采用TDAF的3D-ResNet可以提高1.7的准确性。

在这里插入图片描述

对于左边：在不同的递归流中生成的不同精细度的注意力特征图。可以看到，前面的流程捕获了粗略的注意力热图，从而形成了“顶部”注意力，随后的流程将它们细化为更准确的注意力，并逐渐形成“向下”的注意力。这可以减少由单步生成的不正确关注引起的信息丢失。（这里只展示第一阶段的特征图）
对于右边：除了递归方向上的自上而下的注意力之外，模型还沿着结构方向形成了自下而上的特征图。

论文笔记之TDAF: Top-Down Attention Framework for Vision Tasks

1. 总述

2. R2DNS结构

3. ANAR结构

4. 实验结果与可视化

猜你喜欢