ANN:Asymmetric Non-local Neural Networks for Semantic Segmentation

code pytorch

原始的Non-local Block 结构图

在这里插入图片描述

1.Abstract

标准non-local存在的问题:

  1. 计算量过大
  2. GPU内存占用过高

作者提出了用于语义分割的非对称非局部神经网络,它具有两个突出的组成部分:非对称金字塔非局部块(APNB:大大减少了计算量和内存消耗)和非对称融合非局部块(AFNB)。

2.Introduction

在这里插入图片描述
之前的研究表明:
如果充分利用远程依赖关系,则可以提高性能。

对于标准的non-local 块,只要key分支和value分支的输出保持相同的大小,则非局部块的输出大小将保持不变。 考虑到这一点,如果我们只能从key分支和value分支中采样几个代表性的点,则有可能在不牺牲性能的情况下大大降低了时间复杂度。 所以将图中的N改成S(S<<N)。

3.Asymmetric Non-local Neural Network

在这里插入图片描述
在这里插入图片描述

3.1 Revisiting Non-local Block
  1. 输入特征X∈RC×H×W,使用三个1×1卷积Wφ,Wθ和Wγ将X变换为φ∈RCˆ×H×W
    θ∈RCˆ×H×W和γ∈RCˆ×H×W
    在这里插入图片描述
  2. 展平为Cˆ×N的大小,其中N表示空间位置的总数,即N = H·W。求相似矩阵
    V∈RN×N
    在这里插入图片描述
  3. 对V进行归一化,归一化函数f可以采用softmax,rescaling和none的形式。
    在这里插入图片描述
  4. 对于γ中的每个位置,attention层的输出为
    在这里插入图片描述
    在这里插入图片描述
  5. 最终输出为
    在这里插入图片描述
    其中也由1×1卷积实现的Wo用作加权参数,原始输入X,将通道尺寸从Cˆ恢复到C。
3.2. Asymmetric Pyramid Non-local Block

非局部网络有效地捕获了对语义分段至关重要的远程依赖关系。标准的非局部操作非常耗时且占用内存。显然,大矩阵乘法是非局部块效率低下的主要原因。

我们将N更改为另一个数字S(S << N),输出大小将保持不变,即
在这里插入图片描述
在这里插入图片描述
将N更改为一个小数S等效于从θ和γ采样几个代表点,而不是选择所有空间点,如图1所示。因此,计算复杂性可以大大减少

具体描述:

  1. 我们在θ和γ之后添加采样模块Pθ和Pγ,以采样几个稀疏的锚点,分别表示为
    θP∈RCˆ×S和γP∈RCˆ×S,其中S是采样的锚点数。
    在这里插入图片描述

  2. 计算φ与锚点θP之间的相似度矩阵VP:
    在这里插入图片描述
    注意,VP是大小为N×S的不对称矩阵。然后,VP通过与标准非局部块相同的归一化函数,得到统一的相似矩阵在这里插入图片描述

  3. attention输出:
    在这里插入图片描述
    在这里插入图片描述
    这种不对称矩阵乘法会降低时间复杂度。但是,很难确保当S小时,性能不会同时下降太多。
    为了解决上述问题,我们在非局部块中嵌入金字塔池以增强全局表示,同时减少计算开销。

在这里插入图片描述
通过这样做,我们现在得出了不对称金字塔非本地块(APNB)的最终公式,如图3所示。 一个重要的变化是在θ和γ之后分别添加一个空间金字塔池模块以采样锚。 在图4中清楚地描述了该采样过程,其中在θ或γ之后应用了几个合并层,然后将四个合并结果展平并连接起来用作下一层的输入。

我们将空间金字塔池化模块表示为在这里插入图片描述在这里插入图片描述,其中上标n表示池化层输出大小的宽度(或高度)(经验上,宽度等于高度)。 在我们的模型中,我们设置n⊆{1,3,6,8}。 那么锚点的总数是
在这里插入图片描述
空间金字塔池提供了有关全局场景语义线索的足够的特征统计信息,以纠正由于减少的计算而导致的潜在性能下降。

3.3. Asymmetric Fusion Non-local Block

标准非局部块仅具有一个输入源,而FNB(Fusion Non-local Block)具有两个输入源:高级特征图Xh∈RCh×Nh和低级特征图Xl∈RCl×Nl
同样,使用1×1卷积在这里插入图片描述在这里插入图片描述将Xh和Xl变换为
在这里插入图片描述
在这里插入图片描述
然后,通过矩阵相乘来计算φh与θl之间的相似度矩阵在这里插入图片描述
然后对VF进行归一化,得到统一的相似度矩阵在这里插入图片描述

在这里插入图片描述

3.4. Network Architecture

ResNet-101作为我们的骨干网络,删除了最后两个下采样操作,并使用膨胀卷积来保存输入图像的最后两个阶段中的特征图。我们使用AFNB融合了Stage4和Stage5的功能。 随后将融合的特征与Stage5之后的特征图关联在一起,避免了AFNB无法产生准确的增强特征的情况。

发布了12 篇原创文章 · 获赞 4 · 访问量 1266

猜你喜欢

转载自blog.csdn.net/qq_36321330/article/details/105461380