RCNN相关概念总结

本文结合此博文根据自己理解进行概念总结。

目标识别与检测的区别：

识别只需知道属于哪一类，检测需要知道属于哪一类以及具体位置。

RCNN

Ø Region CNN（RCNN）背景与意义

Ross Girshick研究出RCNN，可以说是利用深度学习进行目标检测的开山之作。

Ø 与经典目标检测算法比较

相对于DPM算法，效果提高显著。

Ø 候选区特征提取方法

经典目标检测算法：人工设定特征（如：Haar、HOG）

RCNN：深度网络

Ø 可供使用的数据库

识别库（ImageNet ILSVC 2012）：一千万张图像，1000类。标定每张图片中物体的类。用于预训练。

检测库（PASCAL VOC 2007）：一万张图像，20类。标定每张图片中物体的类和位置。用于调优参数和评测。

Ø Selective Search

选择性搜索（Selective Search）：

1、生成的区域集S1；

2、相似度最高的两个区域进行合并，添加到R中；

3、在S1中删除合并中的相关子集；

4、计算新的区域集S2；

5、在S2中重复操作2-4，直到区域集为空。

区域集产生方式：一张图像中，每个像素为一个顶点，连线为边，生成最小生成树的顶点为一个区域。

相似度：为颜色、纹理、尺寸、交叠四种相似度分别乘以不同的系数求和得到。

Ø 候选区生成

利用Selective Search在多个颜色空间（HSV、RGB、Lab等），同时进行上述四个规则操作，得到所有区域后删除重复，得到候选区域。

将所有存在过的区域输出，一张图约生成2000~3000个候选区域。

Ø 特征提取

1、候选区域归一化尺寸：227×227

2、预训练网络结构：

学习率0.01，提取特征4096维，输出1000维的类别标号

3、调优训练网络结构：

与预训练的区别在最后一层从输出1000维变为21维，表示20类+背景。学习率0.001。

Ø 类别判断

1、分类器

分类器：SVM；输入：4096维特征；输出：是否属于此类

2、正负样本

正样本：本类的真值标定框

负样本：考察每一个候选框，若和本类的所有标定框重叠都小于0.3，则为负样本

3、hard negative mining方法

在进行训练时，会用到hard negative mining方法。在一开始训练时，会随机一批与正样本没有任何重叠的标记框，形成负样本。但在训练后得出的结果往往会标记出很多错误分类。

通过hard negative方法会在错误的检测中创建一个负样本，添加到训练集中。当重新训练分类器时，效果就会更好。

4、类别判断

一个候选框和当前图像上所有标定框重叠面积最大的一个。若重叠比例大于0.5，则认为此候选框为此标定的类，否则认为是背景。

Ø 位置精修

1、线性脊回归器

正则项λ=10000。输入：pool5层的4096维特征；输出：xy方向的缩放和平移。

2、训练样本

判定为本类的候选框中，与真值重叠面积大于0.6的候选框。

猜你喜欢