SSD目标检测网络模型详细介绍

SSD目标检测网络模型详细介绍

R-CNN、Fast RCNN和Faster RCNN算法详细介绍和总结
YOLO系列(YOLOv1-YOLOv5)算法详细介绍和总结



前言

SSD网络是作者Wei Liu在ECCV 2016上发表的论文。对于输入尺寸300x300的网络使用Nvidia Titan x在vOC 2007测试集上达到74.3%mAP以及59FPS,对于512x512的网络,达到了76.9%mAP超越当时最强的Faster RCNN(73.2%mAP)。


SSD网络框架

在这里插入图片描述

上图为SSD原文中展示的网络框架,可以很直观的展现SDD的网络结构。首先SSD的输入为300x300,通道为3的图像,将图像输入到VGG16的backbone中,其中VGG16模型如图。

在这里插入图片描述

首先SSD网络的前半部分和VGG16中的Conv5的第3个卷积层之前的所有部分相对应的,即图中SSD中的蓝色框部分和VGG16中的红色框部分相对应。而SSD中的Conv_4输出的特征图作为的第一特征层,SSD中的Conv_4对应VGG16中Conv_4所指的卷积层。这里要注意的是,VGG16中Conv4到Conv5使用最大池化进行了下采样,特征图从28x28下采样到14x14,但是SSD中Conv4到Conv5并没有下采样,仍是38x38。

在这里插入图片描述

然后就是SSD中的Conv6(19x19x1024),这一层对应的是VGG16中的第一层全连接层的位置,即SSD中蓝色框部分对应VGG16中的红色部分。

在这里插入图片描述
SSD中的Conv6经过1x1x1024的卷积后得到Conv7(19x19x1024),Conv7对应VGG16中的第二个全连接层的部分。即SSD中蓝色框部分对应VGG16中的红色部分。Conv7为第二预测特征层。

在这里插入图片描述
SSD中的Conv7通过1x1x255和3x3x512-s2的卷积得到Conv8(10x10x512),Conv8_2为第三特征层。Conv8再通过通过1x1x128和3x3x256-s2卷积的到Conv9(5x5x256),Conv9_2为第四特征层。Conv9再通过1x1x128和3x3x256-s1卷积得到Conv10(3x3x256),Conv10_2为第五特征层。Conv10再通过1x1x128和3x3x256-s1卷积得到Conv11(1x1x256),Conv11_2为第六特征层。

在这里插入图片描述

至此一共得到了6个特征层,通过6个特征层就可以预测不同大小的目标。第一层用来预测尺寸相对较小的目标,而随着网络的加深,特征图越来越抽象,则用来检测相对较大的目标。如图,8x8的特征图的抽象程度相比4x4的特征图要低,即所包含的目标细节信息更丰富,则在8x8的特征图中预测较小的目标“猫”,8x8的特征图中的蓝色虚线框(default box)能够和猫的GT box能更好的匹配。同理4x4的特征图中预测较大的目标“狗”,4x4的特征图中的红色虚线框(default box)能够和狗的GT box能更好的匹配。

在这里插入图片描述

Default Box的scale以及aspect设定

在这里插入图片描述
在scale中每一个尺寸包含两个值,例如(21,45),是因为在比率为1时,又额外增加了一个default box,而这个default box的尺寸为21x45的开平方根。

default box的比例设定分为两种,Conv4_3,Conv10_2和Conv11_2三个预测特征层使用4个default box,分别为小正方形框1:1,大正方形框1:1,矩形框1:2和矩形框2:1。而Conv7,Conv8_2和Conv9_2三个预测特征层使用6个default box,分别为小正方形框1:1,大正方形框1:1,矩形框1:2,矩形框2:1,矩形框1:3和矩形框3:1。

特征图层和对应的scale以及aspect设定如下表所示

在这里插入图片描述
根据上表可以得到在6个特征层上总共可以生成8732个default box

在这里插入图片描述

SSD预测器

对于尺寸为mxn,通道数为p的特征层,使用卷积核大小为3x3,通道为p的卷积层预测目标概率分数和相对default box边界框回归参数,这里的预测实现和Faster R-CNN基本类似。

对于特征层上的每一个位置会生成k个default box,对于每个default box会预测c个类别分数和4个坐标偏移量,所以总共需要(c+4)k个卷积核进行预测,所以对于mxn大小的feature map而言就会生成(c+4)kmn个输出值。

对于(c+4)k个3x3的卷积核,其中ck个用于预测目标类别分数,4k用于预测边界框回归参数。在目标分类预测部分,对于每个default box会预测c个目标分数,c中包括了背景类别的目标分数。在边界框回归参数预测部,对于每一个default box会预测中心坐标、宽度和高度4个偏移量。
在这里插入图片描述

正负样本的选取

正样本:

  • 选取与GT box IoU值最大的default box作为正样本
  • 对于一个default box 如果与任何一个GT box 的IoU值大于0.5,则也认为是正样本

负样本:

  • 根据计算的highest confidence loss选取前几个default box作为负样本,其中保持负样本与正样本的比率为3:1

SSD损失函数

SSD的损失包括类别损失和定位损失

在这里插入图片描述

其中类别损失又分为正样本和负样本类别损失

在这里插入图片描述

定位损失

在这里插入图片描述


本文参考:https://blog.csdn.net/qq_37541097?type=blog


如果本文对您有帮助的话,记得点赞哦!

写作不易,您的支持是对我最大的鼓励!!

猜你喜欢

转载自blog.csdn.net/weixin_45848575/article/details/125455234