飞桨PaddlePaddle零基础入门深度学习课程学习总结5(week_3)

目标检测初探

和图像分类一样，目标检测也是计算机视觉领域非常重要的一类任务。但是，对于目标检测任务而言，仅仅利用神经网络对整个图像进行特征提取是不够的。这一点其实也非常好理解，因为对整张图提取特征的过程没能体现出不同目标之间的区别，也就意味没有办法标示出每个物体所在的位置。

为了解决上述的问题，目标检测的基本思路就是，我们通过某种方式在输入图片上生成一系列可能包含物体的的区域，我们把这些区域称为候选区域。我们把每个候选区域当作一个样本，并对它们写上标签。再利用图像分类的神经网络对它们进行分类。

对于上面的描述，相信对于大部分读者来说，依然对目标检测的原理似懂非懂。OK，那么接下来，我们从与检测相关的基本概念开始，了解目标检测的来龙去脉。

1.边界框(bounding box)
用来精确锁定图片中检测目标的矩形框。通常有两种方式来表示边界框的位置：
a) xyxy, 即(x1,y1,x2,y2), 其中(x1,y1)是矩形框左上角的坐标, (x2,y2)是矩形框右下角的坐标。
b)xywh, 即(x,y,w,h), 其中(x,y)是矩形框中心点的坐标, w是矩形框的宽度, h是矩形框的高度。

在训练数据集中，我们会在标签中给出目标物体真实边界框。这样的边界框被称为真实框(ground truth box)。我们使用模型会得到的预测边界框称为预测框(prediction box)。

2.锚框(Anchor box)
锚框是人们假象出来的一种框。通常我们会先设定好锚框的大小和形状，再以图像中某一个点为中心画出矩形框。在目标检测任务中，我们通常会生成一系列的锚框，同时将这些锚框当作可能的候选区域。但是这里很重要的一点是因为锚框的位置和大小是确定的，它不可能在真实图片中与目标物体刚好重合，所以我们需要对锚框进行微调来准确预测物体的位置，至于微调涉及的参数需要我们通过模型来不断调整。

3.交并比(Intersection of Union)
在目标检测任务中，我们生成一系列的锚框，也就是一系列的候选区域，但是我们如何确定它们与真实框的关系呢？这里，我们引出交并比的概念，与数学中的集合概念十分类似。也就是两个矩形框相交的区域（交集）/两个矩形框所有的区域（并集）。当IoU=0时，表示，锚框与真实框之间完全不相交，当IoU=1时，表示锚框与真实框完全重合。

接下来，在一篇文章中，我会开始正式进入目标检测，以YOLO-V3算法为例对目标检测的每一步进行详细说明。

参考：百度架构师手把手带你零基础实践深度学习

飞桨PaddlePaddle零基础入门深度学习课程学习总结5(week_3)

目标检测初探

猜你喜欢