Acquistion of Localization Confidence for Accurate Object Detection论文翻译

翻译仅为学习,如有侵权请联系我删除。
翻译如有错误之处请指出。


摘要
现在的基于CNN物体检测器依赖于边界框回归和非极大值抑制来定位物体。虽然类标签的概率自然的反映了分类置信度,但缺乏定位置信度。这使得合适的定位边界框在迭代回归期间退化,甚至在NMS时被抑制。在这篇论文里我们提出了IoU-Net学习预测每个识别框和其匹配真值框之间的IoU。这个网络获得了定位置信度,通过保存准确定位边界框提高了NMS程序性能。此外,基于优化的边界框细化方法建议将预测的IoU作为目标。在MS-COCO数据集上的大量实验证明了IoU-Net的有效性,以及它与几个最先进的物体检测器的兼容性和适应性。

1、简介
目标检测是一组广泛的下游视觉应用的前提,例如实例分割[19,20],人体骨架[27],人脸识别[26]和基于对象的高级推理[30]。目标检测将目标分类和目标定位结合起来。大多数现代目标检测器基于两阶段框架[9,8,22,16,10],其中目标检测被描述为一个多任务学习问题:1)区分前景对象提议和背景,并给它们分配适当的类标签;2)回归一组系数,通过最大化检测结果与地面真相之间的交叉重叠(IOU)或其他度量来定位目标。最后,通过非最大抑制(NMS)过程删除冗余包围盒(同一对象上的重复检测)。
这里写图片描述
(a)分类置信度与定位精度失调的实证案例。黄色边框表示真值框,而红色和绿色边框都FPN[16]的检测结果。定位置信度由建议的IOU-网络计算.在传统的NMS过程中,使用分类置信度作为排序指标会导致精确的b-box(bounding box)(绿色)被错误地消除。定量分析见2.1节

这里写图片描述
(b)迭代b-box回归中非单调定位的证明。第2.2节提供了定量分析。

Fig. 1:可视化由于缺乏定位置信度而带来的两个缺点。例子选自MS-Coo Minival[17]。

在这类检测流水线中,分类和定位是不同的。具体来说,当给定一个提案时,虽然每个类标签的概率自然地充当提案的“分类信任”,但b-box回归模块找到了最优的方案转换,以最适合GT(ground-truth)。然而,“定位置信度”在循环中是不存在的。

这带来了两个缺点。(1)首先,对重复检测的抑制忽略了定位的准确性,而分类分数通常被用作对提案进行排序的标准。在图1(A)中,我们展示了一组情况,其中检测到的具有较高分类可信度的边界框与相应的真值框的重叠较小。就像格雷斯汉姆所说的,坏账会把好东西赶走,分类可信度和定位精度之间的不一致可能会导致NMS过程中精确定位的b-box被那些不太准确的b-box所抑制。(2)由于缺乏定位置信度,使得被广泛采用的b-box回归难以解释。作为一个例子,以前的工作[3]报告了迭代b-box回归的非单调性.也就是说,如果多次应用,边框回归可能会退化输入边界框的本地化(如图1(B)所示)。

本文介绍了IOU-Net,它能预测检测到的b-box与它们对应的真值框之间的IOU值,使网络感知定位准则类似于分类模块。这个简单的系数为我们提供了解决上述问题的新方法:

1、IOU是定位精度的自然标准。我们可以用预测的IOU代替分类置信度作为NMS中的排名关键字。这种技术,即IOU-guided NMS,有助于消除由误导性分类信任引起的抑制失败。

2、在传统回归方法的基础上,提出了一种基于优化的b-box细化方法.在推理过程中,以预测的IOU作为优化目标,同时也是定位置信度的一个可解释的指标。所提出的精确ROI池层使我们能够通过梯度上升来解决IOU优化问题。结果表明,与基于回归的方法相比,基于优化的b-box精化方法在定位精度上有了单调的提高。该方法完全兼容各种基于cnn的检测器[16,3,10]。

2、深入研究对象定位
首先,我们探讨了目标定位中的两个缺点:分类置信度与定位精度之间的不一致和非单调的b-box回归。一种在MS-Cocotravoid35k训练的标准的FPN[16]探测器作为基线,并在Minival上进行测试用来学习。

2.1、错误分类与定位精度
自[4]以来,NMS一直是大多数目标探测器中不可缺少的部件,其目的是去除重复的b-box。NMS以迭代的方式工作。在每次迭代时,选择具有最大分类置信度的b-box,并使用预定义的重叠阈值消除其相邻框。在软NMS[2]算法中,盒消除被置信度的降低所取代,从而导致更高的查全率。最近,人们提出了一套基于学习的算法来代替无参数NMS和软NMS.[24]计算所有包围框的重叠矩阵,并执行亲和传播聚类以选择聚类样本作为最终检测结果。[11]提出了GossipNet,这是一个基于b-box和分类置信度的NMS后处理网络。[12]提出了一种端到端网络,学习检测到的b-box之间的关系。然而,这些基于参数的方法需要更多的计算资源,从而限制了它们在实际应用中的应用。
这里写图片描述

Fig.2:b-box与真值框的IoU与分类/定位置信度的相关性。考虑到探测到的b-box与相应的真值框有一个IOU(>0.5),皮尔逊相关系数为:(A)0.217和(B)0.617。
(a)分类置信度表示b-box的类别,但不能解释为定位精度。
(b)为了解决这一问题,我们提出了IOU-net来预测每个检测到的b-box的定位置信度,即它于相应真值框的IoU。

在广泛采用的NMS方法中,分类置信度被用来对b-box进行排序,这是有问题的。我们可视化NMS之前所有检测到的边界框的分类信任分布,如图2(A)所示。x轴是检测框与其匹配的真值框之间的IOU,y轴表示它的分类可信度。Pearson相关系数表明定位精度与分类置信度之间不存在很好的相关性。

我们把这归因于大多数基于CNN的目标检测器在区分前景(阳性)样本和背景(阴性)样本时所使用的目标。检测到的边界框 b o x d e t 在训练过程中被认为是阳性的,如果它与真值框之一的IoU大于阈值 Ω t r a i n 。这一目标可能与定位精度不一致。图1(A)显示了具有较高分类置信度的b-box定位较差的情况。

回顾在传统的NMS中,当存在对单个对象的重复检测时,具有最大分类置信度的边界框将被保留。然而,由于不对齐,在NMS中,定位性能较好的b-box很可能会被抑制,导致目标的定位能力较差。图3定量地显示了NMS之后的正包围框的数量。b-box是根据他们与匹配真值框的IoU分组的。对于多个符合同一真值框的检测框,只有拥有最高IOU的才被认为是正的.因此,NO-NMS可作为正b-box的上限.我们可以看到,在传统的NMS过程中,由于缺乏定位置信度,超过一半的检测到的IOU>0.9的b-box被抑制,从而降低了检测结果的定位质量。
这里写图片描述
Fig.3:NMS后的正边界框的数目,由它们与匹配真值框的IoU分组。在传统的NMS(蓝条)中,由于分类置信度和定位精度的偏差,很大一部分精确定位的b-box被错误地抑制,而IoU引导的NMS(黄条)保留了更精确的定位的b-box。

2.2非单调边界框回归
一般情况下,单目标定位可分为两类:基于边界框(b-box)的方法和基于分段的方法.基于分段的方法[19、20、13、10]旨在为每个实例生成像素级分段,但不可避免地需要附加的分段注释。本文主要研究基于边界框的方法。

单个对象定位通常被描述为一个边界框回归任务。其核心思想是网络直接学会将边界框转换(即缩放或移位)到指定的目标。在[9,8]线性回归或全连接层中,改进由外部预处理模块(例如选择性搜索[28]或EdgeBox[33])生成的对象建议的局部化。Faster R-CNN[23]提出了区域提案网络(RPN),其中只使用预定义的锚来训练端到端的目标检测器。[14,32]利用无锚、完全卷积的网络来处理对象尺度的变化。同时,Repulsion Loss在[29]中被提出,用于对具有人群遮挡的目标进行鲁棒性检测。由于它的有效性和简单性,边界框回归已经成为大多数基于cnn的检测器的重要组成部分。

广泛的下游应用程序,如跟踪和识别,将受益于精确的定位边界框。这就对提高定位精度提出了更高的要求。在一系列的物体探测器[31,7,6,21]中,调整过的边界框将被再次输入到边界框回归器中,并再次进行改进。此过程多次执行,即迭代边界框回归。Faster R-CNN[23]首先执行边界框回归两次,将预定义的锚转换成最终检测到的边界框。[15]提出了一种群递归学习方法,考虑到多个方案之间的全局依赖性,迭代地改进检测结果,并尽量减少目标提议与基本真值框之间的偏移。G-CNN是在[18]中提出的,它从图像上的多尺度规则网格开始,并迭代地将网格中的框推到真值框。然而,正如在[3]中所报告的那样,应用边界框回归两次以上不会带来进一步的改进。[3]将此归因于多步边界框回归中的分布失配,并通过多级边界框回归中的重采样策略加以解决。
这里写图片描述
Fig.4:基于优化 v.s. 基于回归 的B-BOX细化。(A)FPN的比较。当迭代应用回归时,检测结果的AP先得到改善,但在以后的迭代中迅速下降。(B)Cascade R-CNN中的比较。迭代0,1和2代表Cascade R-CNN的第一、第二和第三个回归阶段。对于迭代 i≥3,我们使用第三阶段的回归器细化边界框。经过多次迭代,AP略有下降,而基于优化的方法进一步提高了0.8%的AP。

实验证明了基于FPN和Cascade R-CNN框架的迭代边界框回归的性能.每次迭代后的平均精度(AP)分别以图4(A)和图4(B)中的蓝色曲线显示。图4中的AP曲线表明,随着迭代次数的增加,定位精度的提高对于迭代边界框回归来说是非单调的。非单调性,加上不可解释性,给应用带来了困难。此外,如果没有对检测到的边界框的定位置信度,就不能对细化进行细粒度控制,例如对不同的边界框使用自适应迭代次数。

3、IoU-Net
为了定量分析IOU预测的有效性,我们在第3.1节中首先给出了IOU预测器的训练方法。在第3.2节和第3.3节中,我们分别说明了如何使用IOU预测器进行NMS和边界框细化。最后,在3.4节中,我们将IOU预测器集成到现有的对象检测器(如FPN[16])中。
这里写图片描述
Fig.5: 3.4节描述的提议IOU-Net的完整体系结构。输入图像首先被输入到FPN主干网。IOU预测器从FPN主干获取输出特性。我们将ROI池化层替换为3.3节中描述的PrRoI池化层。IOU预测器与R-CNN分支有类似的结构.在虚线框中标记的模块形成一个独立的IOU-Net。

3.1、学会预测IoU
如图5所示,IOU预测器从FPN获取视觉特性,并估计每个边界框的定位精度(IOU)。我们通过增强真值框来产生训练IOU-net的边界框和标签,而不是接受RPN的提议(PS:包含边界框和标签)。具体来说,对于训练集中的所有真实边界框,我们用一组随机参数手动转换它们,从而产生一个候选的边界框集。然后,我们与匹配的真值框的IOU小于Ω_train=0.5的边界框从这个集合里去除。我们从这个候选集合w.r.t. the IOU中统一抽样训练数据。这种数据生成过程在经验上给IOU网带来了更好的性能和鲁棒性.对于每一个边界框,特征都是从具有提议PrROI池化层(见3.3节)FPN的输出中提取出来的。然后将这些特征输入到两层前馈网络中进行IOU预测。为了获得更好的性能,我们使用了类感知的IOU预测器。

IOU预测器与大多数现有的基于ROI的检测器兼容。独立IOU预测器的准确性可以在图2中找到。由于训练过程独立于特定的检测器,因此它对输入分布的变化(例如,当与不同的检测器协作时)具有很强的鲁棒性。在后面的部分中,我们将进一步演示如何在一个完整的检测流水线(即与RPN和R-CNN联合优化)中联合优化这个模块。
这里写图片描述

3.2 IoU-guided NMS
我们用一种新的IOU引导的NMS程序解决了分类置信度与定位精度之间的不一致问题,其中分类可信度和定位置信度(IOU估计)被解除。总之,我们使用预测的IOU而不是分类可信度作为边界框的排序关键字。与传统NMS类似,将选择与真值框有最高IOU的边界框,以消除所有重叠大于给定阈值Ω_nms的边界框。为了确定分类分数,当一个方框i去掉方框j时,我们将框i的分类信心si更新为si=max(si,sj)。这个过程也可以解释为一种信任聚类:对于一组与相同的真值框匹配的边界框,我们选择具有最高置信度的预测作为类标签。该算法的psuedo代码可在算法1中找到。

IOU引导的NMS解决了分类置信度与定位精度之间的不一致问题.定量结果表明,我们的方法优于传统的NMS和软NMS[2]等其他方法。使用IOU引导的NMS作为后处理器,进一步提高了几种最先进的物体探测器的性能。
这里写图片描述

3.3 作为优化过程的边界框调整细化
边界框求精问题可以数学地表述为寻找最优的 c s.t.:
这里写图片描述
其中 b o x d e t 是检测到的边界框, b o x g t 是真值框,transform是以c为参数并对给定的边界框进行变换的边界框变换函数,crit是测量两个边界框之间距离的判据。在最初的FastR-CNN[5]框架中,crit被选择为对数尺度下坐标的smooth-L1距离,而在[32]中,crit被选择为两个包围框之间的−ln(IOU)。

基于回归的算法直接用前馈神经网络估计最优解 c 。但是,迭代边界框回归方法容易受到输入分布[3]的变化的影响,并且可能导致非单调的定位改进,如图4所示。针对这些问题,我们提出了一种基于优化的边界框求精方法,该方法利用IOU-Net作为鲁棒定位精度(IOU)估计器。此外,IOU估计器还可以作为一个早期停止条件来实现自适应步骤的迭代求精。

IOU-Net直接估算IOU(方框Det,方框GT)。当所提出的PrROI池化层能够计算IOU W.r.t.边界框坐标[§]的梯度时,我们可以直接用梯度上升法寻找方程1的最优解。算法2以IOU的估计为优化目标,迭代地用计算出的梯度细化边界框坐标,使检测到的边界框与其匹配的真值框之间的IOU最大化。此外,预测的IOU是每个边界框上定位置信度的可解释指标,有助于解释所执行的转换。

在算法2第6行所示的实现中,我们手动放大了梯度w.r.t.与该轴上的边界框的大小的坐标(例如,我们用宽度( b j )放大了 x 1 )。这相当于像[5]中一样,在对数缩放坐标(x/w,y/h, log w log h )中执行优化。我们还使用一步边界框回归来初始化坐标。

Precise RoI Pooling.我们引入了Precise RoI Pooling(简称PrRoI池),为我们的边界框精化∗提供动力。它避免了任何坐标的量化,并且在边界框坐标上有一个连续的梯度。给定ROI/PrRoI池之前的特征映射F(例如来自ResNet-50中的Conv 4),设 w i , j 是特征映射上一个离散位置(i,j)上的特征。使用双线性插值,离散特征映射在任意连续坐标(x,y)下都可以被认为是连续的:
这里写图片描述
其中这里写图片描述是插值系数。然后将roi的bin表示为bin={(x1,y1),(x2,y2)},其中(x1,y1)和(x2,y2)分别是左上角和右下角点的连续坐标。我们通过计算一个二阶积分来执行给定bin和特征映射F的池化(例如平均池化):
这里写图片描述
为了更好地理解,我们可视化了ROI池化层、ROI对齐层[10]和图6中的PrRoI:在传统的ROI池中,需要对连续坐标进行量化以计算bin中激活的和;为了消除量化误差,在Roi Align中,N=4个连续点在bin中采样,表示为( a i , b i ),并在采样点上执行池操作。与其中N是预先定义的,而不是自适应的w.r.t. bin的大小的ROI Align相反,提议的PrRoI池直接计算基于连续特征映射的二阶积分。

此外,根据方程3中的公式,PrPool(Bin,F)是任意的W.r.t.,也就是bin的坐标。例如,PrPool(B,F)w.r.t.x1的偏导数可计算为:
这里写图片描述
PrPool(bin,F)w.r.t.其他坐标的偏导数可以用同样的方式计算。由于我们避免了任何量化,PrPool是连续可微的。

3.4 联合训练
IOU预测器可以集成到标准的FPN管道中,用于端到端的训练和推理.为了清晰起见,我们将主干表示为用于图像特征提取的CNN体系结构,并将头部表示为应用于单个ROIs的模块。

如图5所示,IOU-net使用ResNet-FPN[16]作为骨干,它具有自顶向下的体系结构来构建特征金字塔。FPN根据他们的尺度从不同层次的特征金字塔中提取ROIs的特征。将原来的ROI池化层替换为PrROI池化层。对于网络头,IOU预测器与R-CNN分支基于来自骨干的相同视觉特征并行工作(包括分类和边界框回归)。

我们在ImageNet上从预先训练的ResNet模型中初始化权重[25]。所有新的层都以零均值高斯初始化,标准偏差为0.01或0.001.我们使用smooth-L1损失来训练IOU预测器。IOU预测器的培训数据是在training batch中的映像中分别生成的,如第3.1节所述。IOU标签是标准化的,其值分布在[−1,1]上。

输入图像的大小调整为在短轴上有800 px,在长轴上最大为1200 px。分类和回归分支从RPN中获取每幅图像512 Rois。我们使用一个16批大小的训练。该网络被优化为160 k迭代,其学习速率为0.01,在120 k迭代后降低了10倍。我们还通过将第一次10k迭代的学习速率设置为0.004来热身训练。我们用0.0001的重量衰减和0.9的动量。

在推理过程中,我们首先对初始坐标应用边界框回归.为了加快推理速度,我们首先在所有检测到的边界框上应用IOU-guided NMS.采用基于优化的算法对100个分类置信度最高的边界框进行了进一步的细化.我们设置λ=0.5为步长,Ω1=0.001为早期停止阈值,Ω2=−0.0 1为局部退化公差,T=5为迭代次数。

4、实验
我们在有80个类别的MS-COCO检测数据集上进行了实验[17].在[1,16]之后,这些模型被训练成80k训练图像和35k验证图像(Travoid35k)的结合,并在一组5k验证图像(Minival)上进行评估。为了验证所提出的方法,在4.1和4.2节中,一个独立的IOU-Net(没有R-CNN模块)独立使用对象检测器进行训练。将IoU_Net驱动的IOU-guided NMS和基于优化的边界框细化技术应用于检测结果.

4.1 IoU-guided NMS
表1总结了不同NMS方法的性能。虽然软NMS保留更多的边界框(没有真正的“抑制”),IOU-guided NMS通过改进检测边界框的定位来改进结果。因此,IOU-guided NMS的性能明显优于基于高IOU度量的基线(例如AP 90)。

通过分析不同IOU阈值下不同NMS算法的召回情况,我们更深入地研究了不同NMS算法的行为。原始检测到的边界框由没有任何NMS的ResNet50-FPN生成。随着对定位精度要求的提高,IOU-guided NMS与其它方法的性能差距越来越大。其中符合IOUΩ_test=0.9的召回率在传统NMS后降至18.7%,IOU-NMS的召回率达28.9%,No-NMS的“上限”为39.7%。

4.2基于优化的边界框求精
提出的基于优化的边界框改进与大多数基于cnn的对象检测器[16,3,10]兼容,如表2所示。采用独立IOU网对原始管道进行边界框细化,通过更准确地定位对象,进一步提高了系统的性能。改进进一步提高AP90 2.8%和总体AP 0.8%,即使相对于有一个三级边界框回归器Cascade R-CNN。
这里写图片描述
表1:IOU-guided NMS与其他NMS方法的比较。通过保留精确定位的边界框,IOU-guided NMS在具有高匹配IOU阈值的AP(例如AP 90)中显示出显著的改善。
这里写图片描述
Fig.7:不同NMS方法在不同的对于匹配的检测框与真值框之间的IOU阈值下的召回曲线。无NMS(无框按下)作为召回的上限。建议的IOU-NMS具有较高的召回率,有效地缩小了与高IOU阈值(例如0.8)的上限之间的差距。
这里写图片描述
表2:基于优化的边界框细化进一步提高了几种基于CNN的目标检测器的性能.

4.3联合训练
IOU-net可以与对象检测框架并行地对端到端进行优化.我们发现在网络中加入IOU预测器可以帮助网络学习更多的鉴别特征,这分别使ResNet50-FPN和ResNet101-FPN的总体AP提高了0.6%和0.4%。IOU-guided NMS和边界框的改进进一步推动了性能的提高.使用ResNet101-FPN实现了40.6%的AP,而基线为38.5%(提高了2.1%)。推理速度如表3所示,说明IOU网以可容忍的计算开销提高了检测性能。

这里写图片描述
表3:在MS-Coco上的最终实验结果。IOU-net表示嵌入IOU预测器的ResNet-FPN。相对于FPN基线我们提高了2%的AP。
这里写图片描述
表4:单个TITAN X GPU上多目标检测器的推理速度。这些模型共享相同的主干网ResNet50-FPN。输入分辨率为1200x800。所有超参数都被设置为相同的参数。

我们主要将表3中AP 50的差结果归因于IOU估计误差。当边界框和真值框有一个较低的IoU,他们有一个较大的差异在外观。如图2(B)所示,对于IOU较低的框,IOU估计变得不太准确。这降低了下游细化和抑制的性能。我们的经验发现,这个问题可以部分解决,如在训练过程中,用较低的IOU采样更多的边界框等技术。

5、结论
本文提出了一种新的网络体系结构-IOU-net,用于精确的目标定位.通过学习预测与匹配真值框的IOU,IOU-net获得了检测边界框的“定位置信度”。这增强了IOU-guided NMS过程,在这个过程中,精确本地化的边界框被阻止被抑制。所提出的IOU-Net直观,易于集成到一组广泛的检测模型中,以提高其定位精度。在MS-CoCO上的实验结果表明了它的有效性和实际应用潜力。

这篇论文指出了现代检测管道在分类定位方面存在的偏差。对于边界框的求精问题,我们还提出了一种新的优化观点,所提出的解决方案超越了基于回归的方法。我们希望这些新的观点能为未来的目标检测工作提供深入的见解。

猜你喜欢

转载自blog.csdn.net/qq_41648043/article/details/82716133