Yolo系列——YOLO v1

企业开发 2024-11-01 17:03:43 阅读次数: 0

文章目录

一、核心思想
二、网络架构
三、损失函数
四、置信度
五、优缺点

一、核心思想

YOLOv1是You Only Look Once系列目标检测算法的开山之作，YOLOv1将目标检测任务转化为一个回归问题，摒弃了传统的两阶段目标检测方法中先提取候选区域再进行分类的步骤。将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。
在这里插入图片描述

二、网络架构

网络结构借鉴了 GoogLeNet 。24个卷积层，用于对输入图像进行特征提取，不断地提取图像的抽象特征，2个全链接层，第一个全连接层将卷积得到的分布式特征映射到样本标记空间，把输入图像的所有卷积特征整合到一起；第二个全连接层将所有神经元得到的卷积特征进行维度转换，最后得到与目标检测网络输出维度相同的维度。。（用1×1 reduction layers 紧跟 3×3 convolutional layers 取代Goolenet的 inception modules ）
在这里插入图片描述
最终输出的7×7意味着7×7个grid cell，30表示每个grid cell包含30个信息，其中2个预测框，每个预测框包含5个信息(x y w h c)，分别为中心点位置坐标，宽高以及置信度，剩下20个是针对数据集的20个种类的预测概率(即假设该grid cell负责预测物体，那么它是某个类别的概率)。
在这里插入图片描述

三、损失函数

YOLO-V1算法最后输出的检测结果为7x7x30的形式，其中30个值分别包括两个候选框的位置和有无包含物体的置信度以及网格中包含20个物体类别的概率。那么YOLO的损失就包括三部分：位置误差，confidence误差，分类误差。
损失函数的设计目标就是让坐标(x,y,w,h)，confidence，classification这个三个方面达到很好的平衡。
在这里插入图片描述

1.位置误差

对于每个网格的两个边框中，选择与真实物体具有最大IOU（交并比）的那个边框，并计算该边框的预测值与真实值的位置误差。位置误差包括中心点坐标的误差和宽高的误差，并且对宽高进行平方根处理，降低对物体尺寸的敏感度，强化小物体的损失权重。如下图：
在这里插入图片描述
其中 $1_{ij}^{obj}$ 表示第i个网格中的第j个预测框是否负责obj这个物体的预测，如果负责则为1，否则为0。

2.置信度误差

这里分成了两部分，一部分是包含物体时置信度的损失，一个是不包含物体时置信度的值。其中前一项表示有无人工标记的物体落入网格内，如果有，则为1，否则为0.第二项代表bounding box和真实标记的box之间的IoU。值越大则box越接近真实位置。
在这里插入图片描述

3.分类误差

其中 $1_i^{obj}$ 表示有无object的中心点落到网格i中，如果网格中包含有物体object的中心的话则为1，那么就负责预测该object的概率。

在这里插入图片描述

四、置信度

1.置信度

$置信度 (co n f i d e n ce) = 类概率 * lO U$
$w e d e f in eco n fd e n ce a s P r (O bj ec t) * I O U "$
Pr(Object)是边界框内存在对象的概率，若存在对象，Pr(Object)=1，否则Pr(Object)=0;IOU是真实框(ground truth)与预测框(predicted box)的交并比

2.loU (Intersection over Union ratio)

实际上就是预测框和真实框面积的交集与并集的比值(两边界框相交部分面积与相并部分面积之比)。我们认为只有loU>0.5的priorbox才是有价值的。
在这里插入图片描述

在这里插入图片描述

3.非极大值抑制

由于目标可能被多次检测到，因此会产生多个重叠或相近的边界框。非极大值抑制的作用就是去除这些冗余的边界框，只保留最有可能包含目标物体的边界框。
如下图：
在这里插入图片描述
图中经过极大值抑制处理后，便只会留下数值为0.81的边界框。

五、优缺点

YOLO V1存在的优缺点：
优点

速度快、简单：YOLOv1能够快速地处理图像，标准版本每秒可以处理45帧图像，轻量版本甚至可以每秒处理150帧图像，完全满足视频的实时检测要求。

缺点

检测精度低：对于小物体以及靠得特别近的物体，检测效果不好。因为每个网格只有两个边框做预测，并且只有一个类别，当多个目标的中心都落在同一个网格里的时候，只能预测出来一个。
定位不准确：在损失函数中，大物体与小物体的位置损失权重是一样的，导致同等比例的位置误差，大物体的损失会比小物体大。

猜你喜欢

转载自blog.csdn.net/2301_77698138/article/details/143167047

YOLO系列之yolo v1

Yolo系列——YOLO v1

YOLO v1

学习：YOLO系列之yolo v1

【YOLO系列】YOLO V1 论文精读与学习总结

【YOLO系列】YOLO V1论文总结

yolo v1原理

Yolo v1 笔记

Yolo系列 V1和V2的对比

【YOLO】yolo v1到yolo v3

目标检测系列（六）：YOLO v1

yolo目标检测系列--综述--v1

【YOLO系列】YOLO v1~v3论文阅读笔记

yolo v1, v2

论文(1) YOLO v1

YOLO v1论文笔记

yolo v1算法理解

【深度学习】YOLO v1

yolo v1 学习与研究

YOLO v1的详解与复现

YOLO V1的过程解读

YOLO v1检测原理

YOLO—V1细节分析

YOLO v1论文理解

yolo v1的学习与理解

YOLO V1算法详解

目标检测——细读YOLO V1

yolo v1源码解析

重温目标检测--YOLO v1

目标检测之YOLO v1

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)