提升小目标检测新的包围框相似度度量:Normalized Gaussian Wasserstein Distance

论文地址:https://arxiv.org/pdf/2110.13389.pdf

文章摘要:检测小目标是个很大的挑战,因为小目标一般在尺寸上只占据很少的像素,目前的最好的物体检测器也无法在小目标上取得满意的效果,因为缺少明显的信息量。我们发现,目前的基于IoU的度量方法,对于小目标的位置的变化非常的敏感,因此,当我们在使用基于anchors的方法时,会明显的使得检测结果。为了减轻这个影响,我们对于小目标,提出了基于Wasserstein距离的度量方式。具体来说,我们先对包围框建模成一个2D的高斯分布,然后提出一个新的度量方式,叫做Normalized Wasserstein Distance (NWD) ,来计算对应的高斯分布之间的相似度。我们提出的这个NWD度量方式可以非常容易的嵌入到基于anchor的检测器的标签分配,非极大值抑制,以及损失函数中,替代常用的IoU的度量。我们在一个新的小目标检测数据集上评估了我们的这个度量方式,在这个数据集中,目标的平均尺寸要比现有的物体检测数据集的物体尺寸要小的多。广泛的实验表明,当使用了NWD的度量方式后,我们的方法要比baseline高6.7AP,相比于SOTA也高6AP。

        小目标检测在现实场景中是很常见的,但是现有的目标检测器大都是在常规尺寸的目标上进行研究和发展。而小目标在AI-TOD数据集中为小于16x16像素的目标,表现出的信息量非常的少,这导致了网络很难学习出可区分的特征,因此,在检测的时候会出现非常多的错误。

        当前,对于小目标检测的发展主要集中在如何提取可区分的特征上。有些是通过对输入图像尺寸进行归一化,提高小目标及其特征的分辨率来提升效果。还有些实用生成对抗网络来生成超分辨率的图。另外,还有通过FPN来学习多尺度的特征来得到具有尺度不变性的检测器。这都取得了一些进展,但是这些精度的提升都是有额外的代价的。

        为了学习到具有可分性的特征,训练样本的选择在anchor based检测器中起到了非常关键的作用,也就是说正负样本的分配是非常重要的。但是,由于小目标只有几个像素,这在训练时选择样本的时候增加了难度。如图1,我们发现,IoU度量对于不同尺度的物体的敏感程度会有很大的不同,对于6x6的小目标,一个很小的位置变化会导致IoU的巨大的变化。而对于正常尺寸的物体36x36,同样大小的位置变动,其IoU的变化很小。图2显示了4个对于不同的尺寸的物体,IoU的变化曲线。在小物体的时候,曲线下降的很快。值的注意的是,Iou的敏感性导致了,对于特定的包围框的位置,只能进行离散的变化。

        这个现象表明,IoU的度量对于尺度是不具备不变性的,而且变化是离散的,这就导致了在标签分配时有2个缺陷。具体来说,IoU阈值(θp, θn)在anchor based物体检测器中用来分配正负样本,在RPN中,一般用到(0.7,0.3)。首先,IoU在小目标上的敏感性会导致标签很容易变得相反,这就导致正负样本可能会具有相似的特征,网络很难收敛。第二,我们发现,在AI-TOD数据集中,使用IoU作为度量的话,每个gt平均分配到的正样本的数量是小于1的,这是由于有些gt和任意的anchor之间的IoU都小于阈值。这样,在训练的时候,小目标就会缺少足够的监督信息。尽管有一些自适应调整阈值的方法,如ATSS,可以动态的调整匹配的阈值,但是对于小目标,仍然很难找到一个合适的阈值,来得到高质量的正负样本。

        既然发现了IoU对于小目标并不是一个很好的度量方法,我们就提出了一个新的度量方法来计算框和框之间的相似度,就是把框建模成高斯分布,然后用Wasserstein距离来度量这两个分布之间的相似度,来代替IoU。这个距离的好处是,即便是2个框完全不重叠,或者重叠很少,还是可以度量出相似度出来。另外,NWD对于目标的尺度不敏感,对于小目标的更加的稳定。

        NWD可以用在一阶段和二阶段的方法上,不仅可以替代标签分配中的IoU,还可以替代NMS和损失函数中的IoU。实验表明,在AI-TOD数据集中,使用我们的方法可以持续的提升性能。

本文的贡献总结如下:

  • 我们分析了IoU对于小目标的敏感性,提出了NWD,作为一个更好的度量框之间相似度的指标。

  • 我们将NWD用到了标签分配,NMS和损失函数中,设计出了一个强大的物体检测器。

  • 我们提出的方法可以显著的提升TOD数据集上的表现,在Faster RCNN上,可以提升11.1%到17.6%。

对包围框进行高斯分布建模       

        对于小目标来说,包围框里总是会有一些背景像素的,因为真实的物体不可能正好是个矩形。在包围框中,前景像素一般集中在中间,背景像素一般集中在边上。为了更好的对包围框中的每个像素进行加权,可以将包围框建模成一个2D的高斯分布。

具体来说,对于水平的包围框R = (cx,cy,w,h),用内接椭圆可以表示为:

其中,(\sigma x,\sigma y )是椭圆的中心点,是x和y轴的半径。对应到包围框中,\mu x = cx\mu y = cy\sigma x =\frac{w}{2}\sigma y=\frac{h}{2}。2D高斯分布的概率密度函数为:

其中,X,μ,∑分别表示坐标(x,y),均值和方差。当:

时,这个椭圆就是2D高斯分布的一个分布轮廓。因此,水平包围框R = (cx,cy,w,h)可以建模为一个2D高斯分布:

这样一来,两个包围框之间的相似度可以用这两个高斯分布之间的距离来表示。

归一化的高斯Wasserstein距离

        我们使用了最优传输理论中的Wasserstein距离来计算两个分布的距离。对于两个2D高斯分布,其2阶Wasserstein距离可以定义为:

 简化一下:

对于两个包围框来说: 

但是,这是个距离度量,不能直接用于相似度。我们用归一化后的指数来得到一个新的度量,叫做归一化的Wasserstein距离。 

这里C是一个常数,和数据集有关。在下面的实验中,我们把C设成数据集中目标的平均绝对尺寸,这样可以到达最好的效果。我们发现,C在一定范围内,对于结果都是稳定的。

相比于IoU,NWD有以下好处:

1、尺度不变性。

2、对于位置的差别变换平缓。

3、具有度量不想交的框的相似度的能力。

基于NWD的loss:

其中,Np是预测框的高斯分布,Ng是GT框的高斯分布。

实验

作者在AI-TOD和VisDrone2019数据集上进行了验证,消融实验在AI-TOD做,AI-TOD数据集的平均尺寸是12.8像素。

和基于IoU的其他度量方法的对比:

yolov5中增加NWD loss:yolov5增加NWD loss提升小目标检测能力_athrunsunny的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/athrunsunny/article/details/129556853