论文笔记R-CNN

1 介绍

本文基于《Rich feature hierarchies for accurate object detection and semantic segmentation》翻译总结,该文论述了R-CNN。

最近10年,关于各种不同的视觉识别任务主要是基于SIFT和HOG。SIFT和HOG是块方向直方图。在R-CNN之前,物体识别停滞了几年。我们是结合了region proposals和CNNs,故取名R-CNN:Regions with CNN features。我们的方法有两个关键点:(1)将高容量的卷积神经网络应用于自底向上的region proposals,以定位和分割物体;(2)当标签的训练数据不足时,辅助任务的监督预训练,进行特别领域的微调,可以产生显著的性能提升。

不像图片分类,物体检测需要在一个图片中定位物体。一种方法是将定位作为一个回归问题,但不是非常成功;另一种方法是建立滑窗检测器,我们采用的此方法,有5个卷积层,非常大的视野(195195 pixels)和步长(3232 pixels)。

网络结构如下图。对于输入图片,我们方法产生2000个分类独立的region proposals,从每一个proposal中使用CNN提取一个固定长度的feature vector,然后使用类别特定的线性SVM对每一个region进行分类。忽略region的形状,从每一个region proposal 计算固定大小的CNN输入。

在这里插入图片描述

2 R-CNN 物体识别

我们的物体识别系统包括3个模块。第一个模块是生成分类独立的region proposal。这些proposals 定义了候选识别物的set集合。第二个模块是一个大的卷积神经网络,其从每个region提取固定长度的特征vector。第三个模块是特定类别的线性SVMs的set集合。

2.1 模块设计

特征提取:从每个region提取一个4096维的特征向量。前向传输一个重新组合的227*227 RGB图片,使其通过5个卷积层和两个全连接层,来计算特征。

为了计算一个region proposal 的特征,我们必须将该region的图片数据转换成兼容CNN的形式(CNN的输入是227*227 pixel)。不考虑region的大小与纵横比,我们使紧凑的bounding box中的所有像素变形到要求的固定大小。下图展示了一些变形后的regions。
在这里插入图片描述

2.2 测试时间检测

我们在测试图片提取2000左右个region proposals,然后变形每一个proposal,前向传输它使其通过CNN,来计算特征。然后对于每个分类,我们使用SVM计算每个提取的特征向量的得分。给定一个图片的所有得分regions,我们对于每一个独立分类采用贪婪非最大抑制,即如果一个region和一个高得分region有 IoU(intersection-over-union) 重叠,其比学习的阈值大,那么就拒绝该region。

运行时间分析:两个特点使检测运行效率高,第一个是所有的CNN参数在所有类别间共享,第二是CNN计算的特征向量是低维的,4K维。

特征矩阵是20004096,SVM权重矩阵是4096N,其中N是类型数量。

扫描二维码关注公众号,回复: 11554909 查看本文章

2.3 训练

监督预训练:我们在一个大的附加数据集(ILSVRC2012 classification)上使用图片水平的标注(没有bounding box 标签)预训练CNN。

**特定领域微调:**为了使我们的CNN适用于新任务(识别)和新领域(变形的proposal windows),我们仅使用变形的region proposals继续进行CNN 参数的SGD(stochastic gradient descent)训练。除了将CNN 的imageNet-specific 1000-way 分类层用一个随机初始化的N+1 way 分类层替换外,CNN结构没有变化。其中N指物体类别的数量,额外加1是为了背景。对于VOC,N=20;对于ILSVRC2013,N=200。我们将与ground-truth box有 >=0.5 IoU overlap 的所有region proposals视为对于box分类积极的,其他为消极的。我们开始SGD以0.001的学习率。在每个SGD迭代中,统一采样32个 positive windows和96个 background windows,构成大小为128的mini-batch。我们偏向采样positive窗口,因为与背景相比,它们极为罕见。

物体类别分类:我们设定一个 IoU overlap 阈值,在阈值之下的定义为negative 样本。Positive 样本定义为每个分类的ground-truth bounding boxes。

因为训练数据太大,不适合在内存中,所有我们采用standard hard negative mining方法。hard negative mining能快速收敛,实际上mAP在遍历一次所有图片后就停止增长。

2.4 网络结构

网络结构对R-CNN识别效果有很大的影响,如下表,T-NET 和O-NET的结果有差异。
在这里插入图片描述

3 语义分割

CNN 特征语义分割:我们评估了三种策略。第一种策略(full)不考虑region的形状,直接在变形后的window上计算CNN 特征。但是这些特征忽略了region的非矩形形状。这两种region有相似的bounding box,但却有非常小的overlap。第二种策略(fg)仅仅在region 的foreground mask上计算CNN 特征。我们用平均的输入替换background,以致于background regions在平均相减后是0。第三种是full+fg,简单连接full和fg的特征。实验结果如下:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/zephyr_wang/article/details/106387236