RCNN学习

流程

1.介绍

特点很重要。各种进展的最后十年视觉识别任务在很大程度上取决于这些使用SIFT和HOG但是如果我们看一下关于规范化视觉识别任务PASCAL的性能VOC对象检测,这是公认的在2010 - 2012年期间进展缓慢,规模小通过建立整体系统并采用成功方法的微小变体获得的收益。SIFT和HOG是块定向直方图,我们可以大致与复杂关联的表示V1中的细胞,灵长类动物视觉路径中的第一个皮层区域。但是我们也知道有几个认识下游阶段,这表明可能会出现更高层次的情况,

在200级ILSVRC2013检测数据集中,R-CNN的mAP是31.4%,这是OverFeat [34]的一大改进以前的最好结果是24.3%。
用于计算功能的具有历史意义的多阶段过程为视觉识别提供更多信息。福岛的“新识别器”[19],一种生物启发式的等级和移动不变模式承认,是对这一过程的早期尝试。然而,新识别器缺乏监督培训算法。建立在Rumelhart等人的基础上。 [33],LeCun et人。 [26]表明通过反向传播的随机梯度下降对训练卷积神经有效网络(CNN),这是一类扩展新奇线程的模型。20世纪90年代,CNN被大量使用,但随后随着支持向量机的兴起,它已经不再流行。2012年,Krizhevsky等人。 [25]重新激起对CNN的兴趣通过在ImageNet大规模视觉识别挑战(ILSVRC)中显示出更高的图像分类准确性。他们的成功是通过在一百二十万张贴有标签的图像上一起训练大型CNN而产生的LeCun的CNN有一些曲折(例如,max(x; 0)纠正非线性和“辍学”正则化)ImageNet结果的意义非常强烈在ILSVRC 2012研讨会期间进行了辩论。中央问题可以归结为以下几点:做到什么程度ImageNet上的CNN分类结果推广到PASCAL VOC挑战对象检测结果?我们通过弥补之间的差距来回答这个问题图像分类和对象检测。这篇文章是首先要证明CNN可以使PASCAL VOC的对象检测性能显着提高到基于更简单HOG特征的系统。实现这个结果,我们关注两个问题:本地化对象拥有深厚的网络和培养高容量模型只有少量的注释检测数据。与图像分类不同,检测需要在图像中本地化(可能有很多)对象。一种方法帧本地化作为回归问题。但是,工作来自Szegedy等人。 [38]与我们自己一样,指出这种策略在实践中可能不会很好(他们报告2007年与2007年相比,2007年30.5%的MAP我们的方法达到了58.5%)。另一种方法是建立一个滑动窗口检测器。 CNN已被用于这种方式至少二十年,通常是受约束的物体猫例如人脸[32,40]和行人[35]。为了通常这些CNN保持高空间分辨率只有两个卷积和合并层。我们也考虑采用滑动窗口方法。然而,我们的网络中有五个卷积单元层,具有非常大的感受野(195×195像素)并在输入图像中跨越(32×32像素),这使得精确定位在滑动窗口范例内开放的技术挑战。相反,我们通过在“识别使用区域”范例内进行操作来解决CNN本地化问题[21],这已经成功的对象检测[39]和语义分割[5]。在测试时间,我们的方法产生了大约2000个与类别无关的区域提案输入图像,从中提取一个固定长度的特征向量每个提案使用CNN,然后对每个地区进行分类具有类别特定的线性SVM。我们使用简单的技术(仿射图像变形)来计算固定大小的CNN
来自每个区域提案的输入,而不管该区域是什么形状。图1给出了我们的方法和概述突出了我们的一些结果。由于我们的系统结合有CNN的区域提案,我们称之为R-CNN方法:带有CNN功能的地区。在本文的更新版本中,我们提供了R-CNN和最近提议的头对头比较OverFeat [34]通过在R-CNN上运行检测系统200级ILSVRC2013检测数据集。 OverFeat使用一个滑窗CNN的检测直到现在是在ILSVRC2013检测方面表现最佳的方法。我们表明R-CNN显着优于OverFeat分别为31.4%和24.3%。检测中面临的第二个挑战是标注数据稀缺且目前可用量不足用于培训大型CNN。传统的解决方案问题是使用无监督的预训练,然后是监督微调(例如,[35])。本文的第二个原则是展示有监督的预训练在大型辅助数据集(ILSVRC)上进行,然后在小型数据(PASCAL)上进行领域特定的微调,是一种有效的学习高容量CNN的范例数据稀缺。在我们的实验中,微调进行检测将MAP表现提高8个百分点。后微调,我们的系统达到了VOC的54%2010年相比,高度调整的HOG为33%可变形零件模型(DPM)[17,20]。我们也指出读者同时期的工作由Donahue等人。 [12],谁表明Krizhevsky的CNN可以作为黑匣子特征提取器使用(无需微调),产生出色的效果在包括场景在内的多种识别任务上的表现分类,细粒度子分类和域适应。我们的系统也非常有效。唯一的类专用
计算是一个相当小的矩阵向量乘积贪婪的非最大抑制。这个计算属性遵循所有类别共享的特征,并且比先前使用的区域特征低两个数量级(参见[39])。了解我们方法的失败模式也是对改进它至关重要,所以我们报告结果Hoiem等人的检测分析工具。 [23]。作为这种分析的直接后果,我们证明了这一点一种简单的边界框回归方法显着减少错位,这是主要的错误模式。在开发技术细节之前,我们注意到因为R-CNN在地区运作,很自然的将它扩展到地区语义分割任务。稍作修改,我们也在PASCAL VOC上取得了有竞争力的结果分割任务,平均分割准确性为47.9%2011测试集。 使用R-CNN进行目标检测我们的目标检测系统由三个模块组成。第一个模块生成与类别无关的区域提议。这些提议定义了可用于检测器的候选检测集合。 第二个模块是一个大型的解卷积神经网络,从每个区域提取一个固定长度的特征向量。 第三个模块是一组类特定线性SVM。 在本节中,我们将为每个模块提供我们的设计决策,描述他们的测试时间使用情况,详细了解他们的参数如何学习,并在PASCAL VOC 2010-12和ILSVRC2013.2.1上显示检测结果。 模块设计区域建议。 最近的各种论文提供了生成与类别无关的区域提案的方法。特征提取。我们使用Caffe [24]从每个区域提案中提取4096维特征向量,由Krizhevsky等人描述的CNN的实现人。 [25]。特征通过正向传播来计算通过五个共振层和两个完全连接的层来平均减去227×227RGB图像。我们提到读者可以[24,25]了解更多网络架构细节。

为了计算区域提案的功能,我们必须首先将该区域的图像数据转换为表单与CNN(其架构要求)兼容固定的227×227像素尺寸的输入)。我们任意形状区域的许多可行转换中,我们选择为最简单。无论大小或长宽比如何候选区域,我们扭曲在一个紧密的边界框中的所有像素围绕它到所需的大小。在变形之前,我们扩张了紧凑的边界框,以便在翘曲的尺寸下,原始图像周围会有扭曲的图像上下文框(我们使用p = 16)。图2显示了一个随机抽样的扭曲训练区域。附录A讨论了翘曲的替代方法。


2.2。测试时间检测

在测试时间,我们对测试图像执行选择性搜索提取2000年左右的区域提案(我们使用选择性搜索的所有实验中的“快速模式”)。我们翘曲每个提议并向前传播它通过CNN或计算功能。然后,对于每个班级,我们进行评分每个提取的特征向量使用为此训练的SVM类。给定图像中的所有评分区域,我们应用一个贪婪的非最大抑制(对于每个类独立地),如果一个区域具有交叉点联合(IoU)与较高评分选定区域重叠则拒绝该区域大于学习的阈值。运行时分析。两个属性使检测效率更高。首先,所有的CNN参数都共享所有的CNN参数。其次,由CNN计算的特征向量与其他常见的方法相比是低维的,例如具有视觉词的空间金字塔编码。用于UVA检测系统的功能,例如,比两个数量级大我们的(360k与4k维)。这种共享的结果是花在编写区域建议和功能上的时间(13s /图像在GPU上或53s / CPU上的图像)分摊到所有类别。该只有类特定的计算是点之间的产品特征和SVM权重以及非最大抑制。在实践中,图像的所有点积都被分批存入一个矩阵矩阵产品。特征矩阵典型地为2000×4096,SVM权重矩阵为4096×N,其中N是类的数量。这一分析表明,R-CNN可以扩展到数千个的对象类而不诉诸近似的技术,如哈希。即使有100k课,得到的矩阵乘法仅需要10秒钟一个现代化的多核CPU。这种效率不仅仅是使用区域提案和共享功能的结果。该由于其高维特征,UVA系统会在需要134GB时慢两个数量级的内存只是为了存储10万个线性预测指标,相比之下只有1.5GB的低维度功能。将R-CNN与最近的对比也很有趣Dean等人的工作。使用DPM进行可伸缩检测和哈希[8]。他们报告了VOC约16%的MAP引入时每个图像运行时间为5分钟10k干扰类。用我们的方法,10k检测器可以在CPU上运行大约一分钟,并且因为没有近似值,mAP将保持在59%(3.2节)。


2.3。训练
受监督的预培训。我们有区别地预先训练CNN在大型辅助数据集(ILSVRC2012分类)上仅使用图像级注释(边界框标签不适用于此数据)。前培训是使用开源Caffe CNN库进行的[24]。简而言之,我们的CNN与表现几乎一致Krizhevsky等人。 [25],获得前1的错误率2.2ILSVRC2012分类中的百分比较高验证集。这种差异是由于简化培训过程。特定领域的微调。为了适应我们的CNN新任务(检测)和新域(变形提案窗口),我们继续随机梯度下降(SGD)仅使用翘曲区域来训练CNN参数提案。除了用随机优先化的(N + 1)分类层替代CNN的ImageNet?特定1000路分类层(其中N是对象类的数量,加上1的背景),CNN
架构不变。对于VOC,N = 20和ILSVRC2013,N = 200.我们对待所有地区提案≥0:5 IoU与地面实况框重叠为正值那个盒子的课,其余的作为底片。我们开始在新加坡元学习率为0.001(初始预训练的1/10)率),这可以让微调取得进展,而不是破坏初始化。在每次SGD迭代中,我们统一采样32个窗口(覆盖所有类别)和96个背景窗口来构建一个小批量的大小128.我们偏向正窗口采样是因为它们与背景相比极为罕见。对象类别分类器。考虑训练一个二进制文件分类器来检测汽车。很明显,一个图像区域

紧紧围住一辆车应该是一个积极的例子。 Simi?larly,很明显,一个背景区域,没有任何东西与汽车有关,应该是一个负面的例子。不太清楚是如何标记与汽车部分重叠的区域。我们将重新解决这个问题,并在其下面添加一个IoU重叠阈值区域被定义为底片。重叠阈值0:3,通过在f0上的网格搜索来选择; 0:1; :::; 0:5克在一个验证集。我们发现选择这个阈值护理完全重要。将其设置为0:5,如[39]中所示MAP乘以5点。同样,将其设置为0会减少mAP由4点。正面的例子被简单地定义为每个类的地面真值包围盒。一旦提取了特征并应用了训练标签,我们就为每个类优化一个线性SVM。自从训练数据太大而不适合记忆,我们采用了标准的硬性负采矿法[17,37]。硬性负面采矿迅速收敛,实际上mAP停止仅在所有图像上传递一次后才会增加。在附录B中,我们讨论正面和负面的原因示例在微调与SVM中的定义不同训练。我们还讨论了培训中涉及的权衡检测SVM而不是简单地使用输出微调CNN的最终softmax层。


2.4 PASCAL VOC 2010-12的结果

遵循PASCAL VOC最佳实践[15],我们验证了所有的设计决策和超参数VOC 2007数据集(3.2节)。对于最终的结果VOC 2010-12数据集,我们对VOC的CNN进行了微调2012年培训并优化了我们在VOC 2012上的检测SVMtrainval。我们将测试结果提交给评估服务器对于两种主要算法变体(每种只有一种)并没有边界框回归)。表1显示了VOC 2010的完整结果。我们将这种方法与四个强大的基线进行比较,其中包括SegDPM [18],它结合了DPM探测器和输出一个语义分割系统[4],并使用附加的内部检测器上下文和图像分类器重新编码。最密切的比较是对UVA系统来自Uijlings等。 [39],因为我们的系统使用相同的区域提议算法。分类地区,他们的方法建立一个四级空间金字塔并填充它密集采样的SIFT,扩展对手SIFT和RGB?SIFT描述符,每个矢量用4000个字量化码本。分类用直方图进行相交核SVM。与他们的多功能相比,非线性核支持向量机方法,我们实现了mAP中的大幅改进,从mAP的35.1%提高到53.7%,同时速度要快得多(第2.2节)。我们的方法在VOC 2011/12测试中达到了相似的性能(53.3%mAP)。

2.5 ILSVRC2013检测结果

我们在200级ILSVRC2013检测上运行R-CNN数据集使用我们使用的相同系统超参数用于PASCAL VOC。我们遵循了将测试结果分发到ILSVRC2013评估服务器的相同协议只有两次,一次和一次没有边界框回退。图3比较了R-CNN与ILSVRC中的条目2013年的比赛以及赛后的OverFeat赛事[34]。 R-CNN达到31.4%的平均分,显着领先于24.3%的第二好结果OverFeat。了解AP的分布情况类别,盒子图也被呈现出来,并且在表8中的论文结尾处提供了每类AP的表格。大多数(OverFeat,NEC-MU,UvA?Euvision,Toronto A和UIUC-IFP)使用卷积神经网络,表明存在显着的细微差别在如何将CNN应用于对象检测,导致结果大不相同。在第4节中,我们概述了ILSVRC2013检测数据集并提供关于我们选择的详细信息在运行R-CNN时制作的。3.可视化,消融和错误模式


3.1可视化学习功能
第一层过滤器可以直接可视化并且很容易了解[25]。它们捕捉定向边缘和相反的颜色。了解后续的层次更多具有挑战性的。 Zeiler和Fergus在文献[42]中提出了一种视觉吸引性的去卷积方法。我们提出一个简单的(和互补)直接的非参数方法
显示网络学到了什么。这个想法是挑选出一个特定的单位(功能)NE并且像它本身就是物体探测器一样使用它。 也就是说,我们计算单位在大量外出地区提案(约1000万)上的激活情况,将提案从最高激活到最低激活进行排序,执行非最大抑制,然后显示最高评分指标。 我们的方法通过精确地显示它所触发的输入,让选定的单位“自己说话”。 我们避免老化,以便看到不同的视觉模式,并通过单元计算出的不变性得到洞察。我们将图层pool5中的单元可视化,这是网络第五个和最后一个卷积的最大输出

层。 pool5特征图是6×6×256 = 9216-维。忽略边界效应,每个池5单位都有原始227×227中的195×195像素的感受野像素输入。一个中央池5单位几乎具有全球视野,而靠近边缘的则有一个较小的支撑。图4中的每一行都显示了前16个激活来自美国有线电视新闻网的pool5部门,我们对VOC 2007进行了微调trainval。 256个功能独特的单元中有6个是可视化的(附录D包括更多)。这些单位被选中以显示网络的代表性样本得知。在第二行,我们看到一个单位对狗进行射击面和点阵列。与第三行对应的单位是一个红色的斑点检测器。也有用于人类的探测器面部和更抽象的图案,如文字和三角形与窗户的结构。该网络似乎学习了一个表示结合了少量的课程调整特征与分布式形状表示一起,纹理,颜色和材料属性。随后完全连接层fc6有能力建模一大群这些丰富功能的组合。


3.2 消融研究
性能逐层,无需微调。要了解哪些层对检测性能至关重要,我们分析了每个VOC 2007数据集的结果CNN的最后三层。简要描述了层pool5在第3.1节。最后两层总结如下。层fc6完全连接到pool5。为了计算特征,它将一个4096×9216权重矩阵乘以pool5
特征图(重塑为9216维向量)和然后添加偏向量的向量。这个中间向量是分量方式半波整流(x max(0; x))。图层fc7是网络的最后一层。它通过将由fc6计算的特征乘以a来实现4096×4096权重矩阵,同样加入一个向量的偏见和应用半波整治。我们首先看看CNN的结果微调PASCAL,即所有的CNN参数仅在ILSVRC 2012上进行预培训。分析性能逐层(表2第1-3行)显示特征fc7概括性比fc6中的特征更差。意即即29%,即约1680万美元的CNN参数可以在不降低mAP的情况下被移除。更令人惊讶的是
删除fc7和fc6产生相当好的结果即使pool5功能仅使用6%的计算CNN的参数。许多CNN的代表性权力来自卷积层,而不是来自
更大的密集连接层。这一发现在计算密集的特征地图方面提供了潜在的效用,HOG的意义,只有使用任意大小的图像CNN的卷积层。这种表示将启用pool5功能顶部的滑动窗口检测器(包括DPM)的实验。性能逐层进行微调。我们现在在仔细调整它的pa后,看看我们CNN的结果在VOC 2007火车上的音量。改进很快(表2第4-6行):微调将mAP提高了8.0
百分点达到54.2%。微调的助力在于
这意味着fc6和fc7比pool5大得多从ImageNet学到的pool5功能是一般的而且大部分的改进都是从学习中获得的

在它们之上的领域特定的非线性分类器。与最近的特征学习方法比较。在PAS?CAL VOC检测方面,尝试了很少的特征学习方法。我们看看最近的两种方法建立在可变形零件模型上。作为参考,我们还包括标准的基于HOG的DPM的结果[20]。第一个DPM特征学习方法,DPM ST [28],用“草图标记”的直方图增强HOG特征概率。直觉上,草图标记是通过图像中心的等高线的紧密分布补丁。草图标记概率是在每个像素处计算的由一个随机森林,经过训练,分类35×35像素修补为150个草图标记或背景之一。第二种方法,DPM HSC [31]用HOG代替HOG稀疏码(HSC)的直方图。为了计算HSC,为每个像素使用稀疏代码激活一个100 7×7像素(灰度)原子的学习字典。由此产生的激活有三种方式进行纠正(完整和两个半波),空间汇集,单位'2归一化,和然后变换功率(x sign(x)jxjα)。所有R-CNN变体都强于三种DPM基线(表2第8-10行),包括使用的两个特征学习。与最新版本的DPM相比,仅使用HOG特征,我们的mAP超过20提高百分点:54.2%比33.7% - 相对改善61%。 HOG和素描结合使用可以在单独HOG上获得2.5 mAP点,而HSC则可以获得2.5 mAP点比HOG提高了4 mAP点(当进行比较时内部到他们的私有DPM基线 - 两者都使用DPM的非公开实现,其表现低于开放源版本[20])。这些方法实现了mAP分别为29.1%和34.3%。


3.3 网络架构
本文中的大部分结果都使用网络体系结构来自Krizhevsky等人。 [25]。但是,我们发现架构的选择对R-CNN的检测性能有很大的影响。表3中显示了VOC的结果007年测试使用最近提出的16层深网络Simonyan和Zisserman [43]。这个网络是其中之一这是近期ILSVRC 2014分类挑战中表现最佳的企业。网络具有同质结构由13层3×3卷积核构成五个最大汇集层穿插,并排在第三位

完全连接的层。我们称这个网络为“O-Net”牛津网和多伦多网的基准线为“T-Net”。为了在R-CNN中使用O-Net,我们下载了公开可用的预先训练好的网络权重VGG ILSVRC来自Caffe模型的16层模型Zoo.1然后,我们使用与T-Net相同的协议对网络行微调。唯一的区别是使用更小的微型配件(24个示例)根据需要适合GPU内存。表3中的结果表明,使用O-Net的R?CNN与T?Net相比明显优于R-CNN,将mAP从58.5%增加到66.0%。但是那里在计算时间方面是一个相当大的缺陷O-Net的正向传递时间大约延长7倍比T-Net。


3.4 检测错误分析

我们应用了优秀的检测分析工具Hoiem等人[23]为了揭示我们的方法的错误模式,了解如何微调改变他们,并看看我们的错误类型与DPM的比较。分析工具的全部内容超出了本文的范围,我们鼓励读者参考[23]了解一些更好的细节(如“规范化的AP”)。自从分析最好吸收在相关的背景下我们将在图5和图6的标题内进行讨论。


3. 5 边界框回归
基于错误分析,我们实施了一种简单的方法来减少本地化错误。受到灵感的启发在DPM中使用的边界框回归[17],我们训练一个

线性回归模型来预测新的检测窗口给定选择性搜索区域prom posal的pool5功能。完整的细节在附录C中给出。表1和表2和图5的结果表明这种简单的方法修复了大量错位检测,助力mAP由3点至4点。


3.6 定性结果

ILSVRC2013的定性检测结果在本文最后的图8和图9中给出。每图像是从val2集合中随机抽取的,所有探测器的所有探测精度都大于0.5被显示。请注意,这些不是策划的,并且对检测器的实际效果给予了相当的印象。图10和图11给出了更多的定性结果但是这些都经过了策划。我们选择每个图像,因为它包含的兴趣


4.1 数据集概述

ILSVRC2013检测数据集分为三部分设置:train(395,918),val(20,121)和test(40,152),其中

每组中的图像数量都在括号内。该al和测试分割是从相同的图像分布中绘制的。这些图像像复杂的场景一样(物体数量,杂波量,姿态变化等)到PASCAL VOC图像。 val和测试分割已被详细注释,意味着在每个图像中所有实例来自所有200个类别都标有边界框。该相比之下,列车组是从ILSVRC2013类别图像分布中抽取出来的。这些图像具有更多的可变复杂性,并且对单个心对象的图像有偏差。与val和test不同,火车图像(由于他们的大数量)没有详尽注释。在任何给定的火车图像,来自200个类的实例可以或者可能不会被贴上标签。除了这些图像集,每个班级有一组额外的负面影像。负面的图像手动检查以验证它们不包含任何相关类的实例。这项工作中没有使用负面影像集。更多信息如何收集和注释ILSVRC如何找到[11,36]。这些分裂的性质呈现出多种选择用于培训R-CNN。火车图像不能用于硬性负面挖掘,因为注释并不全面。负面例子来自哪里?也,火车图像具有与val和test不同的统计数据。是否应该使用火车图像,如果是的话,到什么程度?虽然我们还没有彻底评估一个大的选择的数量,我们呈现最多的东西基于以前的经验,明显的路径。我们的总体策略是严重依赖val集合使用一些列车图像作为定位示例的辅助来源。要将val用于训练和验证,我们将它分成几乎相同大小的“val1”和“val2”集。由于有些类在val中有很少的例子(最小只有31个,一半少于110个),是的重要的是要产生一个近似等级平衡的区间。要做到这一点,大量的候选人分裂生成的和最小的最大相对值阶级失衡被选中.2每个候选人分裂是通过使用它们的类计数对val图像进行聚类生成作为功​​能,随后是可能的随机本地搜索改善分拆余额。这里使用的特定分割约11%的最大相对不平衡和中位数相对失衡4%。使用val1 / val2分割和代码生产他们将公开可用,以允许其他研究人员比较他们的方法在val分裂中使用这份报告。


4.2 地区提案
我们遵循的是同一地区的提案方法用于PASCAL上的检测。选择性搜索[39]是在val1,val2和test中的每个图像上以“快速模式”运行(但是不在火车上的图像)。需要进行一些小修改来处理选择性搜索不规模的事实不变,所以产生的区域数量取决于在图像分辨率上。 ILSVRC图像大小范围从非常小到几百万像素,所以我们在运行选择性搜索之前,将每幅图像的大小调整为固定宽度(500像素)。在val上,选择性搜索导致了一个平均每个图像有2403个区域提案,其中91.6%

回忆所有的地面真实包围盒(在0.5 IUU阈值)。这次召回显着低于PASCAL,其中约为98%,表明在区域提案阶段改善的余地很大。


4.3 训练数据
对于训练数据,我们形成了一组图像和框其中包括所有选择性搜索和地面实况框从val1开始,最多N个地面真值盒
来自火车的班级(如果一个班级少于N个地面实况在火车上的箱子,然后我们把他们全部)。我们会打电话给这个图像和框val1 + trainN的数据集。在消融研究,我们在val2上显示NAPO的mAP; 500; 1000克(第4.5节)。R-CNN中的三个程序需要培训数据:(1)CNN微调,(2)检测器SVM训练,以及(3)边界框回归训练。 CNN进行了微调在val1 + trainN上使用完全相同的50k SGD迭代用于PASCAL的设置。微调NVIDIA®(英伟达™)Tesla K20使用Caffe花了13个小时。对于SVM训练,来自val1 + trainN的所有地面实况框被用作各自类别的正面例子。对来自val1的5000个图像的随机选择的子集进行硬性负面挖掘。最初的实验表明,挖掘所有val1的负面影响一个5000图像子集(大约一半),导致只有一个MAP下降0.5个百分点,同时将SVM训练时间减半。没有消极的例子来自于2相对不平衡测量为ja - bj =(a + b)其中a和b是班级在每一半的分组计数。

因为注释并不详尽。没有使用经过验证的负片图像。该边界框回归器在val1上进行了培训。


4.4 验证和评估

在将结果提交给评估服务器之前,我们验证的数据使用选择和微调的效果并使用上述训练数据对val2集进行边界框回归。所有系统超参数(例如,SVM C超参数,区域扭曲中使用的填充,NMS阈值,边界框回归超参数)固定为与PAS?CAL相同的值。毫无疑问,这些超参数选择中的一部分对于ILSVRC而言稍微不理想,但是目标是这项工作是为了产生一个初步的R-CNN结果ILSVRC没有广泛的数据集调整。选择后val2的最佳选择,我们提交了两个结果文件发送到ILSVRC2013评估服务器。第一个子任务没有边界框回归,第二个任务是边界框回归。对于这些意见,我们扩大了支持向量机和边界?框回归器训练集使用val + train1k和val,retively。我们使用了经过微调的CNNval1 + train1k以避免重新运行微调和功能计算。


4.5 消融研究
表4显示了不同量的训练数据,微调和边界框回归的影响的消融研究。首先观察到val2上的mAP与测试中的mAP非常接近。这使我们有信心val2上的mAP是测试性能的良好指标。第一个结果是20.9%,这是R-CNN的成就使用预先在ILSVRC2012分类数据集(不进行微调)的CNN进行培训并给予小val1中的训练数据量(回忆一半的类在val1中有15到55个例子)。扩大设置为val1 + trainN的训练将提高性能24.1%,N = 500基本无差异和N = 1000。用例子从CNN微调CNN然而,只有val1略微提高至26.5%

由于数量较少,可能会出现显着的过度配合积极的训练实例。扩大微调设置为val1 + train1k,从列车集合中增加多达1000个正面考试班级,有助于提高意义提出了一个有规则矩形的多级金字塔,并将每个类的边界框回归器改为一个单一的边界框回归器,那么系统会是非常相似的(在他们的训练方式上取消了一些潜在的显着差异:CNN检测微调,使用SVM等)。值得注意的是OverFeat与R-CNN相比速度快很多:大约是9倍更快,基于引用的每张图片2秒的数字[34]。这个速度来自于OverFeat的滑动窗口(即区域提议)在这个位置没有扭曲的事实图像级别,因此计算可以轻松共享在重叠窗口之间。共享由以卷积方式运行整个网络任意大小的输入。加速R-CNN应该以各种方式加以应对,并且仍然是未来的工作。


5 语义分割
区域分类是一种标准分割的标准技术,使我们可以很容易地将R-CNN应用于该分类PASCAL VOC分割挑战。为了便于与当前领先的语义分割系统(称为“二阶汇集”的O2P)[4]进行直接比较,我们在他们的开源框架内工作。 O2P使用CPMC每个图像生成150个区域提案,然后预测每个地区的质量,针对每个班级使用支持向量回归(SVR)。高性能的他们的方法是由于CPMC地区的质量以及功能强大的二级池化功能类型(SIFT和LBP的丰富变体)。我们也注意到Farabet等人[16]最近表现出良好的结果在多个密集场景标注数据集(不包括PAS?CAL)上使用CNN作为多尺度每像素分类器。我们遵循[2,4]并扩展了PASCAL分割培训设置包括提供的额外注释Hariharan等人[22]。设计决策和超参数测试仪在VOC 2011验证集上进行了交叉验证。最终的测试结果只评估一次。CNN特征用于分割。我们评估了CPMC地区计算功能的三种策略,所有这些都是首先将区域周围的矩形窗口扭为227×227。第一种策略(全屏)忽略了区域的形状,并直接计算了CNN特征就像我们为检测而做的那样。然而,这些功能忽略了区域的非矩形形状。两个地区可能有非常相似的边界框虽然有很少的重叠。因此,第二个策略(fg)仅计算一个区域的前景码中的CNN特征。我们用平均值替换背景输入,以便在平均吸引后背景区域为零。第三个策略(全+ fg)简单地连接全功能和fg能;我们的实验验证了它们的互补性。全R-CNN fg R-CNN全+ fg R-CNNO2P [4] fc6 fc7 fc6 fc7 fc6 fc746.4 43.0 42.5 43.7 42.1 47.9 45.8表5:VOC 2011分析的分类平均准确度(%)。第1栏介绍O2P; 2-7使用我们的CNN预先训练过ILSVRC 2012。VOC 2011的结果。表5显示了我们的结果与O2P相比,VOC 2011验证集的结果。(请参阅附录E了解完整的每类结果。)

每个特征计算策略,层fc6总是优于fc7,下面的讨论涉及fc6的特征。 fg战略略胜于全,表明掩蔽的区域形状提供更强的信号,符合我们的直觉。然而,full + fg的平均分辨率为47.9%,最好的结果是4.2%(也略微超过O2P),表明由全功能提供的配置文件甚至具有很高的信息量给出了fg的功能。值得注意的是,在我们的培训20个SVRs完整+ fg功能需要一个小时才能完成,相比之下10多个小时的O2P功能培训。表6列出了2011年VOC测试的结果设置,比较我们最好的方法,fc6(全+ fg),反对两个强大的基线。我们的方法为21个类别中的11个实现了高分割准确性,并且整体分割准确率最高,达到了47.9%,平均分类(但可能与O2P结果相关)在任何合理的误差范围内)。通过微调可能会获得更好的性能。


六 结论

近年来,物体检测性能一直处于停滞状态NAT的。表现最好的系统非常复杂将多个低级图像特征与来自物体探测器和场景分类的高级背景fiers。本文提出了一个简单且可扩展的对象de检测算法,相对提高30%优于PASCAL VOC 2012之前的最佳结果。
我们通过两个见解实现了这一表现。该首先是应用高容量卷积神经网络致力于自下而上的区域提案以进行本地化和细分对象。第二个是火车的范例如果标注的培训数据很少,则需要大型CNN。我们表明,对网络进行预培训是非常有效的,与监督 - 为数据丰富的辅助任务(图像分类),然后对网络进行微调数据稀缺的目标任务(检测)。我们猜测确保“有监督的预培训/特定领域的罚款调整“范式将对各种各样的非常有效数据稀缺的视力问题。我们得出结论,指出我们很重要通过使用分类组合来实现这些结果
cal计算机视觉和深度学习工具(底部后续区域建议和卷积神经网络)。他们不是反对科学探究的线索,而是反对科学探究自然和不可避免的伙伴。致谢。这项研究得到了部分支持由美国国家科学基金会提供的DARPA Mind's Eye和MSEE计划授予IIS-0905647,IIS-1134072和IIS-1212798,MURI N000014-10-1-0933,并得到丰田的支持。
本研究中使用的GPU慷慨捐赠由NVIDIA公司提供

猜你喜欢

转载自blog.csdn.net/nineship/article/details/80703499