飞桨PaddlePaddle零基础入门深度学习课程学习总结5(week_3)

目标检测初探

和图像分类一样,目标检测也是计算机视觉领域非常重要的一类任务。但是,对于目标检测任务而言,仅仅利用神经网络对整个图像进行特征提取是不够的。这一点其实也非常好理解,因为对整张图提取特征的过程没能体现出不同目标之间的区别,也就意味没有办法标示出每个物体所在的位置。

为了解决上述的问题,目标检测的基本思路就是,我们通过某种方式在输入图片上生成一系列可能包含物体的的区域,我们把这些区域称为候选区域。我们把每个候选区域当作一个样本,并对它们写上标签。再利用图像分类的神经网络对它们进行分类。

对于上面的描述,相信对于大部分读者来说,依然对目标检测的原理似懂非懂。OK,那么接下来,我们从与检测相关的基本概念开始,了解目标检测的来龙去脉。

1.边界框(bounding box)
用来精确锁定图片中检测目标的矩形框。通常有两种方式来表示边界框的位置:
a) xyxy, 即(x1,y1,x2,y2), 其中(x1,y1)是矩形框左上角的坐标, (x2,y2)是矩形框右下角的坐标。
b)xywh, 即(x,y,w,h), 其中(x,y)是矩形框中心点的坐标, w是矩形框的宽度, h是矩形框的高度。

在训练数据集中,我们会在标签中给出目标物体真实边界框。这样的边界框被称为真实框(ground truth box)。我们使用模型会得到的预测边界框称为预测框(prediction box)。

2.锚框(Anchor box)
锚框是人们假象出来的一种框。通常我们会先设定好锚框的大小和形状,再以图像中某一个点为中心画出矩形框。在目标检测任务中,我们通常会生成一系列的锚框,同时将这些锚框当作可能的候选区域。但是这里很重要的一点是因为锚框的位置和大小是确定的,它不可能在真实图片中与目标物体刚好重合,所以我们需要对锚框进行微调来准确预测物体的位置,至于微调涉及的参数需要我们通过模型来不断调整。

3.交并比(Intersection of Union)
在目标检测任务中,我们生成一系列的锚框,也就是一系列的候选区域,但是我们如何确定它们与真实框的关系呢?这里,我们引出交并比的概念,与数学中的集合概念十分类似。也就是两个矩形框相交的区域(交集)/两个矩形框所有的区域(并集)。当IoU=0时,表示,锚框与真实框之间完全不相交,当IoU=1时,表示锚框与真实框完全重合。

接下来,在一篇文章中,我会开始正式进入目标检测,以YOLO-V3算法为例对目标检测的每一步进行详细说明。

参考:百度架构师手把手带你零基础实践深度学习

猜你喜欢

转载自blog.csdn.net/weixin_44607838/article/details/108284498