[目标检测]--AugFPN:Improving Multi-scale Feature Learning for Object Detection

在这里插入图片描述

\color{#FF3030}{摘要:}

目前最先进的检测器通常利用特征金字塔来探测不同尺度的物体。其中,FPN是多尺度特征累加构建特征金字塔的代表作品之一。然而,其背后的设计缺陷阻碍了多尺度特征的充分利用。本文首先分析了FPN中特征金字塔的设计缺陷,然后引入了一种新的特征金字塔结构——增广FPN (AugFPN)来解决这些问题。具体来说,AugFPN由三个部分组成 : 一致性监督(Consistent Supervision)、残差特征增强(Residual Feature Augmentation)和软RoI选择(Soft RoI Selection)。AugFPN通过一致性监督,在特征融合前缩小不同尺度特征之间的语义差距。在特征融合中,通过残差特征增强来提取比率不变的上下文信息,以减少特征图在最高金字塔层次上的信息丢失。最后,采用软RoI选择方法,在特征融合后自适应地学习更好的RoI特征。通过将FPN替换为更快的R-CNN中的AugFPN,我们的模型在使用ResNet50和MobileNet-v2作为主干网时,平均精度(AP)分别提高了2.3和1.6个百分点。此外,当使用ResNet50作为主干网络时,AugFPN将RetinaNet提高1.6点AP,将FCOS提高0.9点AP。

\color{#FF3030}{正文:}

1.FPN缺陷分析:
在这里插入图片描述
FPN结构流程如上图所示,但是FPN的特征金字塔中存在一些设计缺陷,如上图所示。FPN中的特征金字塔基本上可以分为三个阶段:(1)特征融合前,(2)自顶向下特征融合,(3)特征融合后。我们发现每个阶段都有一个内在的缺陷,如下所述:
1)不同层之间的语义差异:不考虑这些特性之间的巨大语义差异。由于语义信息不一致,直接融合这些特征会降低多尺度特征表示的能力。
2)最高层特征的信息损失:在FPN中,特征融合通常是最高层特征自上而下进行融合,然而,由于通道减少,位于金字塔最高层的特征反而丢失了信息。通过结合全局上下文特性,可以减少信息丢失。但是这种将特征图融合成一个向量的策略可能会丢失空间关系和细节,因为在一张图像中可能会出现多个对象。
3)roi的启发式分配策略:在特征融合之后,每个目标的proposal都是基于从一个特征层次上汇聚的特征网格进行细化的,这些特征网格是根据proposals的尺度启发式地选择的。但是,来自其他级别的被忽略的特性可能对对象分类或回归有益。考虑到这个问题,PANet集合了所有金字塔层的RoIs特征,并将它们以max操作方式融合,然后将它们与独立的全连接层融合。然而,max融合会忽略响应较小的特性,而这些特性可能也很有帮助,并且仍然不能充分利用其他级别的特性。同时,额外的全连通层显著增加了模型参数。
AugFPN针对以上问题做了改进:首先,提出一致监督的思想,通过对特征图施加相同的监督信号,使横向连接后的特征图包含相似的语义信息。其次,利用比率不变自适应池提取不同的上下文信息,以残差的方式减少特征金字塔中最高级特征的信息丢失。我们把这个过程称为剩余特征增强。第三,引入软RoI选择,更好地利用不同金字塔层次的RoI特征,为后续的位置细化和分类提供更好的RoI特征。

2.AugFPN:
在这里插入图片描述
网络整体结构如上图所示,接下来详细解释每个创新点:
(1)Consistent Supervision
存在语义差异的不同层特征进行融合,可能会导致次优解,可以在融合前对多尺度特征执行相同的监督信号,以缩小二者之间的语义差距。具体操作就是在M1 --> M5层均预测目标做辅助损失,给每层的特征添加相同的监督信号。因此损失函数如下,公式中的M代表M1到M5层的辅助损失,P代表主损失:
在这里插入图片描述
M1到M5辅助损失部分只在训练过程使用,推理的时候是可以丢掉的,因此相当于没有增加参数量。
(2)Residual Feature Augmentation
在这里插入图片描述
FPN特征融合方式是最高层M5自上而下逐层融合,这样操作一方面,利用高层语义信息对低层特征图进行增强,自然赋予其丰富的上下文信息。另一方面,M5由于特征通道的减少而导致信息丢失,只包含单一尺度的上下文信息,与其他层次的结果特征不兼容。
为了改善M5的特征表示,我们提出了残差特征增强的方法,利用残差分支向原始分支中注入不同的空间上下文信息。我们期望全局上下文信息可以减少M5通道中的信息丢失,同时提高生成的特征金字塔的性能。具体操作如下:
1.以M5为原始特征,进行ratio-invariant adaptive pooling:将原始特征pooling成原图尺寸成一定比率大小的3个子特征图,比率不变自适应池化考虑了图像的比例,比PSPNet更适合于目标检测;
2.再对3个子特征图进行Adaptive Spatial Fusion:即在H*W维度上学一个注意力,自适应空间融合来融合特征,而不是简单的求和来进行更好的融合得到额外的特征层M6,;
3.再用M6自上而下对M5–>M1逐层融合得到最终P1–>P5。
(3)Soft RoI Selection
思想比较简单,最新的方法都提到了这点,具体的操作就是在proposal在不同层进行ROI Pooling后的特征进行一个融合。融合方式也是上面的Adaptive Spatial Fusion方式。

\color{#FF3030}{实验结果:}

日常关注消融实验分析:
1.本文3个创新点的贡献度

在这里插入图片描述
2.Consistent Supervision的消融分析
在这里插入图片描述
3.ASF和RA-AP的消融分析
在这里插入图片描述
4.Soft RoI Selection的不同特征层的贡献分布图
在这里插入图片描述
5.Soft RoI Selection中融合方式分析
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42096202/article/details/103600365