Segmentation as Selective Search for Object Recognition

摘要

对于目标识别,目前最先进的技术是基于穷举搜索。然而,为了能够使用更昂贵的特性和分类器,从而超越目前的技术水平,需要一种选择性搜索策略。因此,我们通过重新考虑分割来将分割作为一种选择性搜索:我们打算在少量且精确的对象描述上生成许多粗略的位置,因为(1)一个从未生成位置的对象无法被识别,(2)外观和邻近环境是最有效的对象识别。我们的方法是类无关的,并显示了在Pascal VOC 2007测试集中使用每个图像的1536个位置覆盖了96.7%的所有对象。我们的选择性搜索允许使用更昂贵的词带方法,我们使用它来大幅提高了最先进的水平,将帕斯卡VOC 2010检测挑战的20个级别中的8个提高了8.5%

1. 介绍

对象识别(即确定一个物体在图像中的位置和类别)在过去几年中取得了重大进展,参见Pascal VOC挑战[8]。最先进的是基于穷举搜索的图像,以找到最佳的对象位置[6,9,13,28,29]。但是,由于穷举搜索中要计算的图像和窗口的总数非常多,而且还在不断增加,因此有必要限制每个位置的计算量和考虑的位置数。目前,通过使用具有简单计算特性的弱分类器[6,9,13,28,29]、减少粗网格上的位置数量、固定窗口大小[6,9,27],可以减少计算量。这样做的代价是会忽略某些对象位置和错误分类其他对象。因此,我们提出了“选择性搜索”,大大减少了需要考虑的位置数量。特别地,我们建议使用分割来生成一组有限的位置,允许更强大但更昂贵的词带特性[5,23,26]。
选择性搜索已经被[3,7]成功地用于对象描述,即创建一个像素级的图像分类。两者都专注于每幅图像10-100个可能重叠的分段,这些段最好地对应于一个对象。他们专注于建立精确的对象轮廓,这就是为什么这两个引用[3,7]都使用了一个强大的,专门的轮廓探测器[2]。在本文中,我们重新考虑将分割作为选择最佳位置进行对象识别的工具。我们的目标不是10-100个精确位置,而是生成1000 - 10000个近似位置。为了提高对象识别的性能,(I)在每张图像中生成几千个位置以保证包含几乎所有的目标,(2)粗糙分割包括对目标分类有利的已知局部环境[6,25]。因此,我们将计算的注意力地放在图像中承载最多对象分类信息的部分。
重视召回率(鼓励包含所有潜在相关的图像束)是Hoiem等人较早提出的用于表面布局分类的[14],Russell等人用于潜在对象发现的[22]。在参考文献中,它的用途仅限于改变分割的规模,而它在确定目标方面的潜力还有待研究。Malisiewicz和Efros[21]研究了段捕获对象的效果而不是穷举搜索的边界框。他们也主要改变了分割的规模。相反,本文使用完整的分割层次结构,通过使用各种不变的颜色空间,尽可能多地考虑不同的场景条件,如阴影、底纹和高光。此外,我们在Pascal VOC挑战赛数据集上,通过召回率和识别精度证明了选择搜索的分割性能。
综上所述,我们的贡献如下:(1)我们重新考虑分割,将其作为一种工具来选择最佳的目标识别位置。我们非常强调召回率,偏向好的对象近似而不是精确的对象边界。(2)我们证明了通过不变的颜色空间来考虑场景条件能得到一个强大的具有高召回率的选择性搜索策略。(3)我们展示了我们的选择性搜索能够使用更昂贵的特征,例如词袋模型,并在Pascal VOC 2010检测挑战中显著提高了8/20个类的最佳性能。

2. 相关工作

在图2中,可以看到本文与其他工作的关系。定位的研究通常可以分为两类。1)重视识别的工作(2.1节)。在这里,确定对象类比确定精确的轮廓更重要,通常用穷举搜索;2)重视对象轮廓的工作(2.2节)。在这里,对象轮廓是最重要的,通常用分割。
在这里插入图片描述
也有两个例外的类别。Vedaldi等人[27]使用跳跃窗口[4],通过学习单个视觉单词与目标位置的关系,预测新图像中的目标位置。Maji和Malik[20]将这些关系的多个部分结合起来,使用霍夫变换来预测对象的位置,然后他们对接近霍夫最大值的窗口随机采样。这两种方法都可以看作是选择性搜索。相对于学习,我们采用分割作为选择性搜索来生成类独立的对象假设。

2.1 基于穷举搜索的识别

由于对象可以位于图像中的任何位置和比例,所以到处搜索是很自然的[6,13,28]。然而,视觉搜索空间是巨大的,使得穷举搜索在计算上是昂贵的。每个地点和/或考虑的地点数目的评价费用是巨大的。因此,这些滑动窗口技术大多使用粗糙的搜索网格和固定的高宽比,使用弱分类器和经济适用的图像特征,如HOG[6,13,28]。该方法常被用作级联分类器的预选择步骤[13,28]。
与滑动窗口技术相关的成功方法是Felzenszwalb等人的基于部分的对象定位方法[9]。该方法还利用线性支持向量机和HOG特征进行穷举搜索。它们搜索对象和对象部件,这样的组合带来了令人惊讶的对象检测性能。
Lampert[15]开发了一种分支绑定技术来直接搜索图像中的最优窗口。虽然他们在线性分类器上取得了令人惊讶的结果,但[1]发现,对于非线性分类器,该方法在实践中仍然在每幅图像中访问超过100,000个窗口。
以前的方法都是class-specifc特定于类的,而Alexe等人[I]建议搜索所有对象,无论它是哪一类。他们在对象窗口训练一个分类器,那些对象有一个界限分明的形状(比如草就不是)。然后,不同于一个完整的穷举搜索,他们随机采样边框,将分类器应用于上。具有最高“对象性”指标的边框作为一组对象假设。然后使用这个集合来极大地减少由class-specifc对象检测器评估的窗口数量。
在本文中,我们建议将分割作为一种选择性搜索来代替穷举式搜索,以便能够立即使用昂贵且可能更强大的识别技术。与除[1]外的所有穷举方法相比,我们的方法生成一个完全与类无关的对象假设集。

2.2 基于选择性搜索的对象描述

在对象描述领域,卡雷拉等人3]和Endres、Hoiem[7]提出了利用分割生成一组类独立的物体假设。这两种方法都生成多个前景/背景分割,学习预测一个前景是一个完整对象的可能性,并使用这个方法对这些段进行排序。这两种算法都显示出很大的潜力,可以精确地描绘图像中的对象。这是由[17]实现的,[17]使用[3]实现了最先进的像素级图像分类结果。本文采用选择性搜索的方法进行对象识别,因此我们更重视对目标位置的召回率,更偏向粗糙的对象定位而不是精确的目标轮廓。我们可以忽略[3,7]中包含的[2]的优秀但昂贵的轮廓检测器,这使我们的算法在大型数据集上具有计算可行性。与[3,7]不同的是,我们使用层次分组算法而不是多重前景/背景分割。
Gu等人的[12]解决了仔细分割和识别对象基于其部分的问题。他们首先使用基于[2]的分组方法生成一组部分假设。每个部分的假设都是由外观和形状特征描述的。然后利用这些部分对对象进行识别和精细刻画,从而达到良好的形状识别效果。在他们的工作中,分割被限制在一个单一的层次结构中,而其发现部分或对象的能力没有得到评估。在这篇论文中,我们使用了多种不同的颜色空间来丰富多样的层次分割,并评估了它们在寻找完整物体上的潜力。

3. 基于选择性搜索的分割

在本节中,我们采用分割作为目标识别的选择性搜索。这种改变带来的优势:
高召回率: 没有生成位置的对象永远无法识别。因此,召回率是最重要的标准。为了获得高的召回率率,我们观察以下情况:(I)物体可以在图像中的任何尺度上出现。而且,有些对象包含在其他对象中。因此,有必要在所有的尺度内生成位置,如图3所示。(2)没有单一的最佳区域分组策略:在一张图像中,一条边可能代表一个对象边界,而在另一张图像中,同一条边可能是阴影的结果。因此,与其以单个最佳分割为目标,还不如将多个互补的分割组合在一起,也就是说,我们希望将所使用的分割集多样化。
在这里插入图片描述
粗糙定位已经足够: 由于目前的目标识别技术都是利用物体的外观特征,因此对象假设的准确对象轮廓和就显得不那么重要了。因此,评估不应侧重于对象边界(如[2]),而应侧重于确定合理近似的对象位置,正如Pascal重叠准则[8]测量的那样。
快速的计算: 在大型数据集上执行对象定位时,对象假设的生成不应该成为瓶颈(我们的算法快)

3.1 我们的分割算法

生成所有尺度位置的最自然的方法是使用分层分割算法中的所有位置(如图1所示)。我们的算法使用大小和外观特征,这些特征在整个层次结构中快速传播,所以算法速度相当快。请注意,我们保持基本的算法,以确保可重复性。并且,我们的结果不是来自于参数调整,而是来自于对分割目标的重新思考。
在这里插入图片描述
由于区域可以产生比像素更丰富的信息,我们从一个过度分割开始,即一组不分散在多个对象上小区域。我们使用[10]的快速方法作为我们的出发点,[2]发现这很适合生成一个过度分割。
从初始区域开始,我们使用一个贪婪算法将两个最相似的区域迭代分组,并计算新区域与其相邻区域之间的相似性。我们继续,直到整个图像变成一个单独的区域。作为潜在的对象位置,我们考虑层次结构中的所有段(包括初始段),或者考虑这些段周围的紧密包围框。
我们将a区域和b区域的相似度S定义为S(a, b) = Ssize(a, b) + Stexture(a, b)。这两个部分的结果都是一个范围[0,1]内的数字,并且权重相等。
Ssize(a, b)被定义为a段和b段共同占据的图像的部分。这一措施鼓励小区域尽早合并,并防止单个区域一个接一个地吞并所有其他区域。
Stexture(a, b)被定义为sift-like纹理测量[18]之间的直方图交集。对于这些测量,我们在一个区域上聚合8个方向的梯度大小,就像在没有高斯加权的SIFT的单个子区域中一样。当我们使用颜色时,我们遵循[26],在每个颜色通道中分别进行纹理测量,并将结果连接起来。

3.2 阴影、底纹和高光

为了获得多个互补的分割,我们在各种具有不同不变性的颜色通道中进行分割。特别地,我们考虑了对阴影、底纹和高光边缘[11]具有不同敏感度的多种颜色空间。标准RGB是最敏感的。opponent颜色空间对高光边缘不敏感,但对阴影和底纹边缘敏感。归一化的RGB空间对阴影和底纹边缘不敏感,但对高光仍然敏感。色调H是最稳定的,对阴影、底纹和高光不敏感。注意,我们总是在单一颜色空间中执行每个分割,包括[10]的初始分割。
对于多种颜色空间的另一种方法是使用不同的阈值开始分割。我们也评估了这种方法。

3.3 讨论

我们将分割作为目标识别的选择性搜索,其目的是通过考虑图像片段层次分组的所有层次来获得高召回率。此外,通过考虑多种颜色空间与不断增加的不变性水平的成像条件,我们对由阴影、底纹和高光引入到图像中的额外边缘具有鲁棒性。最后,我们的方法是快速的,这使得它适用于大型数据集

4. 对象识别系统

在本节中,我们将详细介绍如何使用第三节中的选择性搜索策略来实现一个完整的目标识别系统。作为特征表示,主要有两类特征:有向梯度直方图(histogram of oriented gradients, HOG)[6]和词袋模型(bag-of-words)[5,23]。Felzenszwalb等人的研究表明,HOG与基于部分的模型相结合是成功的。然而,由于使用了穷举搜索,HOG特征与线性分类器相结合是唯一可行的选择。为了证明我们的选择性搜索策略能够使用更昂贵和潜在的更强大的功能,我们使用词袋进行对象识别[13、15、27]。我们使用了比[13,15,27]更强大(和昂贵)的实现,通过使用多种颜色空间和更精细空间金字塔分割[16]
特别地,我们在单个尺度上的每个像素采样描述器。我们从[26]中提取了SIFT[18]和两种推荐的颜色SIFT,分别是OpponentSIFT和RGB-SIFT。使用来自[26]的软件。我们使用一个大小为4,096的可视码本和一个有4层的空间金字塔。由于空间金字塔的结果是比构成HOG描述器的单元格更粗的空间细分,所以我们的特征包含关于对象的特定空间布局的信息更少。因此,HOG更适合于精确对象,而我们的特性更适合于可变形的对象类型。
作为分类器,我们使用一个支持向量机与直方图交集核使用[24]。我们使用[19]中的快速、近似分类策略。
我们的训练过程如图4所示。最初的正样本包括所有的金标准对象窗口。作为初始的负样本,我们使用选择性搜索生成的所有对象位置,它们与一个正样本的重叠度在20%到50%之间,除非它们与另一个负例的重叠度超过70%(即,我们尽量避免重复)。这种训练实例的选择给出了比较好的初始分类模型。
在这里插入图片描述
然后,我们进入再训练阶段,迭代地添加难训练的负样本(例如[9]):我们使用选择性搜索生成的位置将已学习的模型应用于训练集。对于每个负样本,我们都添加了得分最高的位置。由于我们的初始训练集已经产生了良好的模型,我们的模型只需要两次迭代就能收敛。
对于测试集,最终的模型应用于我们的选择性搜索生成的所有位置。窗口按分类分数排序,而与得分较高的窗口重叠超过30%的窗口被认为是近似重复的,并被删除。

5. 评估

为了评估我们的选择性搜索策略的质量,我们进行了以下四个实验:

  • 实验一:评估如何使分割适应选择性搜索。特别地,我们比较了层次结构的多个平面分割,并评估了越来越不变的色彩空间的使用
  • 实验二:将分割作为选择性搜索来生成良好的识别对象定位的任务与[1, 13, 27]进行了比较
  • 实验三:将分割作为选择性搜索来生成良好的分割对象轮廓的任务与[3,7]进行了比较
  • 实验四:评估我们在第4节的对象识别系统中的对象假设在广泛接受的[9]对象定位方法上的使用情况,并将其与最先进的方法进行比较[8,9,29]
    在所有的实验中,我们报告了Pascal VOC 2007或2010数据集[8]的结果。这些数据集包含20个对象类别的图像和对象标签金标准,边框的位置,以及数据子集的对象定位方面的像素级分割。
    在[13,27]中,假设的质量取决于所有类别的平均召回数量与检索到的位置数量的比值。我们使用标准的Pascal重叠准则[8],如果候选位置与金标准位置的交集面积除以它们的并集面积的值大于0.5,则认为找到了目标。注意,在第一个和第二个实验中,位置是一个边界框,在第三个实验中位置是一个段。
    任何参数的选择都只在训练集上进行,而本文的结果都是在测试集上报告的。

5.1 实验一:用于选择性搜索的分割

在这个实验中,我们评估了调整分割用于选择性搜索。首先,我们比较多个平面分段与一个层次分割。其次,我们评估了各种颜色空间的使用。
平面和层次: 由于我们的分割算法是从[10]的初始过度分割开始的,所以我们用[10]来比较我们的分层版本和多个平面分段。我们在RGB颜色空间中这样做。我们通过设置阈值k(从100到1000)来改变[10]的范围,步长为10或50。对于我们的分层算法,我们使用最小的阈值100。改变阈值k会导致比单个层次分组更多的段,因为在[10]中,由高阈值产生的段边界并不是由小阈值产生的段边界的子集。因此,我们还考虑了使用100和200阈值的两个层次分段。
从表1可以看出,多个平面分段比单个层次分组的召回率更高,但使用了更多的位置。然而,如果我们选择两个初始阈值并结合结果,我们的算法将得到89.4而不是87.7的召回率,而且只使用511个位置而不是1159个。因此,分层方法比多平面分割更可取,因为它产生更好的结果,更少的参数,并自然地选择所有的尺寸。此外,我们发现它要快得多。
在这里插入图片描述
多个颜色空间: 我们现在测试两种不同的策略来获得更高的召回率。正如在以前的实验中所看到的,使用多个起始分段是有益的。此外,我们测试了结合不同的颜色空间与不同的不变性属性如何增加对象的数量。特别地,我们在RGB颜色空间中进行分割,然后在Opponent颜色空间、归一化RGB颜色空间和色调通道中加入分割。我们使用k = 100来进行单一初始分割;两个初始分割k = 100,200;四个初始分割k = 100,150,200,250。结果如图5所示。
在这里插入图片描述
可以看到,无论是改变初始分割还是使用各种不同的颜色通道都能产生互补的对象位置。注意,使用四种不同的颜色空间比使用四种不同的初始分割效果更好。此外,当使用所有四个颜色空间时,两个和四个初始分割之间的差异可以忽略不计。我们的结论是,随着不变性的增加,改变颜色空间比改变初始分割的阈值更好。在随后的实验中,我们总是使用这两个初始分割。(即多层次和多空间)
参数灵敏度: 在训练集的初步实验中,我们使用了其他颜色空间,如HSV、HS、归一化rg加强度、仅使用强度等。然而,我们发现,只要选择具有一定不变性的颜色空间,结果是非常相似的。为了便于说明,我们在本文中使用了具有最明显不变性的色彩空间。此外,我们发现,只要产生一个良好的过度分割,k的准确选择并不重要。最后,纹理直方图的不同实现总体上产生的变化很小。我们得出结论,本文的召回不是由参数调整引起的,而是通过不同的颜色不变性性质,使分割策略具有良好的多样性。

5.2 实验二:用于识别的选择性搜索

现在,我们将我们的选择性搜索方法与[13]的滑动窗口、[27]的跳跃窗口和[I]的“对象性”度量进行比较。表2显示了每种方法获得的最大召回率,以及每张图像生成的平均位置数。我们的方法取得了最好的结果,召回率为96.7%,平均每个图像有1536个窗口。[27]的跳跃窗口以94%的召回率排在第二位,但使用了10,000个窗口。而且,它们的方法是针对每个类专门训练的,而我们的方法是完全类无关的。我们的方法产生最高的召回率,且位置数少。
在这里插入图片描述
我们还在图6中比较了召回率和窗口数量之间的权衡。可以看到,我们的方法在使用比[1,27]更少的窗口时提供了更高的召回率。[13]的方法似乎只需要几个窗口就可以获得83%的最大召回率。但是,每个类每个图像使用200个窗口,这意味着每个图像生成4000个窗口。此外,他们的假设的排序是基于一个类特定的识别评分,而我们的假设的排序是通过在越来越不变的颜色空间中包含分段来实现的。
在这里插入图片描述
综上所述,我们的选择性搜索在使用较少位置的情况下,在最大召回率方面优于其他方法。此外,我们的方法完全与类无关。由此可见,分割是一种非常有效的目标识别选择性搜索策略,它通过使用具有不同尺寸和不同不变性的颜色空间来调整以获得高召回率。

5.3 实验三:用于对象描述的选择性搜索

[3,7]的方法是为物体轮廓而设计的,但在计算上过于昂贵,无法应用于VOC 2007检测数据集。作为替代,我们在更小的分割数据集上进行比较,使用的不是边框而是片段。我们使用公开可用的代码为[3,7]生成候选段。注意,我们在评估中排除了背景类别。
结果如表3所示。[7]方法使用1989个窗口实现了82.2%的最佳召回率。我们的方法排名第二,使用1973个片段的召回率为79.8%。[3]方法仅使用697个窗口,召回率为78.2%。但是,我们的方法比[7]快28倍,比[3]快54倍。我们的结论是,我们的方法虽然在召回率上旗鼓相当,但速度快得多,所以在大型数据集上是计算可行的。
在这里插入图片描述
有趣的是,我们试图通过结合这三种方法来丰富选择性搜索。结果的收回率是90.1%(!),比任何单个方法都要高得多。我们的结论是,为了识别的目的(而不是为了最好的分割)明智的做法是研究分段如何相互补充。

5.4 实验四:对象识别精度

在这个实验中,我们在一个被广泛接受的基于部分的对象识别方法[9]上,和第四部分描述的对象识别系统中评估我们的对象假设。后者的性能与Pascal VOC 2010挑战赛检测任务中最佳方案的性能旗鼓相当。
使用part-based模型的搜索策略: 我们比较了Felzenszwalb[9]方法的各种搜索策略。我们把[9]的穷举搜索作为基准。我们使用我们的选择性搜索框作为[9]输出的一个滤波器,这是由它们的代码促成的,在这里我们抛弃了所有Pascal重叠小于0.8的位置。在实践中,这将考虑的窗口数量从每个类每个图像大约100,000个减少到大约5,000个。结果显示在图7的左侧。总的来说,使用我们的边框作为一个滤波器将平均精度从0.323降低到0.296MAP。0.03MAP的精度损失,而评估的边框数是原来的二十分之一。请注意,对于一些内容,如aeroplane、dog、dining table和sheep,甚至有轻微的改进,这表明在较高的召回率和对象检测精度之间存在权衡。
在这里插入图片描述
如果我们在[9]上以相同的方式使用[l]所有10,000个边框,则映射将减少到0.215。但在[1],它们有一个额外的爬山步骤使他们可以考虑只有2000个窗口,而代价是0.04的MAP。这表明,[l]建议的爬山步骤可以进一步改善使用我们的边框的结果。
Part-based HOG versus bag-of-words: 选择性搜索的一个主要优点是它支持使用更昂贵的特性和分类器。为了评估更好的特征和分类器的潜力,我们将第4节中描述的词袋识别流程与使用HOG和线性分类器的[9]基准进行了比较。图7中右侧的结果显示了20个对象类别中的10个的改进。对于猫,牛,狗,羊,餐桌,飞机这些类别,我们提高了11%至20%。除了飞机,这些对象类别都有灵活的形状,词袋在这些形状上可以很好地工作(第4节)。基线对于具有刚性形状特征的物品类别,如自行车、汽车、瓶子、人、椅子,具有更高的准确性。如果我们为每个类选择最好的方法,而不是基线的0.323,我们得到0.378的MAP,一个显著的,绝对的5%MAP的改进。
与最佳性能的比较: 为了将我们的结果与目前最先进的目标识别技术进行比较,我们已经将Pascal VOC 2010检测任务的单词袋模型提交给了官方评估服务器。结果如表4所示,以及竞赛的前四名。在这个独立的评估中,我们的系统在20个项目中有8个项目的水平比其他所有竞争项目提高了8.5%。
在这里插入图片描述
总之,我们的选择性搜索为基于部分的模型提供了良好的对象位置,因为即使没有[1]的爬坡步骤,我们也能以0.03MAP的平均精度为代价,只需要评估20分之一的窗口。更重要的是,我们的选择性搜索允许使用昂贵的特性和分类器,这使我们能够在VOC2010检测挑战的20个类中大幅提高8个类。

6. 结论

在本文中,我们将分割作为目标识别的一种选择性搜索策略。为此,我们倾向于生成许多近似的位置,而不是少数精确的对象描述,因为那些没有生成位置的对象永远无法被识别,而外观和邻近的上下文对于对象识别是有效的。因此,我们的选择性搜索使用所有尺寸的位置。此外,我们已经证明,为了识别,使用一组互补的分割是明智的,而不是使用单一的最佳分割算法。特别地,本文通过使用各种不变的色彩空间来解释不同的场景条件,如阴影、底纹和高光。这促进了一个强大的选择性搜索策略,每个图像只生成1536个类无关的位置,以捕获Pascal VOC 2007测试集中所有对象中的96.7%。这是迄今为止报告的最高召回率。
我们证明了分割作为一种选择性搜索策略对于目标识别是非常有效的:对于基于部分的系统[9],考虑的窗口数量可以减少20倍,以3%MAP的损失为代价。更重要的是,通过利用减少的位置数量,我们可以使用强大但昂贵的词袋实现进行对象识别,并提高20个类中的8个的平均精度,最高可达8.5%。

发布了1 篇原创文章 · 获赞 0 · 访问量 283

猜你喜欢

转载自blog.csdn.net/qq_35024702/article/details/104986621