《深度学习》YOLO V3 网络构架解析

一、YOLO V3

1、了解YOLOv3

2、3个scale

一、YOLO系列 V3

1、了解YOLOv3

相比于YOLOv1和v2，YOLOv3最大的改进就是网络结构，使其更适合小目标检测，特征做的更细致，融入多持续特征图信息来预测不同规格物体

先验框更丰富了，3种scale，每种3个规格，一共9种

softmax改进，预测多标签任务。

和YOLOv2一样都是使用的darknet网络结构，v1用的GoogLeNet网络

2、3个scale

为了能检测到不同大小的物体，设计了三个尺度scale

scale变换的经典方法：

不同特征图融合后进行预测：YOLOv3

3、残差连接

YOLOv3使用了ResNet残差网络的思想，堆叠更多的层再进行特征提取

二、YOLOv3核心网络构架

1、核心网络构架

没有池化层和全连接层，全部卷积，下采样通过stride卷积核滑动步长为2来实现，使用3种scale尺度，更多的先验框

Conv Block表示该模块是一个普通的卷积模块，Residual Bolck代表该模块是一个残差网络。

2、输入映射到输出

3、先验框设计

YOLOv2使用了5个先验框，这里的v3使用了9种先验框

例如，13*13的特征图上使用(116x90)、(156x198)、(373x326)的先验框

26*26的特征图上使用(30x61)、(62x45)、(59x119)的先验框

52*52的特征图上使用(10x13)、(16x30)、(33x23)的先验框

大的先验框在感受野大的特征图中检测

YOLO3延续了K-means聚类得到先验框的尺寸方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。分配上，在最小的13*13特征图上（有最大的感受野）应用较大的先验框(116x90)，(156x198)，(373x326)，适合检测较大的对象。中等的26*26特征图上（中等感受野）应用中等的先验框(30x61)，(62x45)，(59x119)，适合检测中等大小的对象。较大的52*52特征图上（较小的感受野）应用较小的先验框(10x13)，(16x30)，(33x23)，适合检测较小的对象。