《基于YOLOv3的口罩识别》答辩记录

写在前面

这是某个渣渣本科生的答辩记录,借鉴陈同学的,有需要的同学自取~,先给大家一些文件吧

源码(带数据集):https://pan.baidu.com/s/1zzo_tNBvnAsQBqU1LCARhg
提取码:p9ny

ppt:https://pan.baidu.com/s/169lSpuN-YipiOwXr5I3wOw
提取码:urhw

渣渣辉的本科论文:https://download.csdn.net/download/callmeCassie/18888661

1.自我介绍

简要介绍姓名,指导老师,论文题目,然后这张ppt就直接过了,我看有些人还讲了感谢各位老师百忙之中balabala讲了一大串,看你答辩顺序吧,越到后面,老师基本不想听这些话,反正我是很反感。。。

2.目录

一般答辩时间应该是控制在7分钟到10分钟左右吧,目录这里的话建议还是不用讲,直接给评委看就行,反正后面也有大标题会讲,而且这里把目录说出来又浪费时间又有点空洞。

3.研究背景

这里就直接按照ppt里面文字讲就行,记得后面答辩老师问我的选题意义,就是把没戴口罩的人标注出来并提醒他。

4.技术分析

物体检测算法:

目前物体检测算法有以下三种:第一种是传统物体检测算法,使用人工设计特征以及机器学习的分类方式,但这种算法提取到的特征局限性较大且学习速度有限;第二种是结合候选框+深度学习分类法,这类Two-Stage方法解决了前者的问题,在精度上有很大突破,但在速度上很难达到实时检测的效果;第三种是基于深度学习的回归方法,在速度上达到了实时级别的突破,本文使用的YOLO就是属于One-stage,YOLO虽然在v1,v2版本准确率上有所欠缺,但到v3版本时准确率提高了很多。

YOLOv3分析:

YOLOv3网络由两部分构成,特征提取主干网Darknet-53与特征交互网络YOLO层。
Darknet-53是一个全卷积的结构,可以看到这边共有5个步长为2的卷积层,一共进行了5次下采样,每一次下采样都能提取到更高维度的特征。在每两个卷积层之后加入残差层,解决梯度爆炸与梯度消失问题。
再来看看YOLO层,它之所以被称为特征交互,实际上是因为YOLO层取前面5次下采样的后三次,将高阶的特征通过上采样的方式叠加在较低阶的特征上,让低阶特征获得其高阶特征的信息,从而更容易在上面检测微小物体。

模型对比:

为了确实得出YOLOv3在本次选题背景下的全面性,本文对比了一些跟它相似的模型
如表是在检测同样的100张测试图片下的对比,虽然ResNet50的速度只有12.7s,但是准确率是62.29%,相比于YOLOv3是比较低的,存在很多误检情况
YOLOv3-tiny是YOLOv3的简化版本,速度快,但精度低,只有33.19%,下面是YOLOv3和tiny在识别目标的表现,右边是tiny的检测结果,可以看到tiny基本识别不出。这是因为它的主干网络只有7层,无法提取出更高层次的语义特征。
我们看下YOLOv3,虽然速度相对于另外两个速度非常慢,但是检测一张图片是不到1s的时间的,这样的速度我们是可以接受的,因为它的准确率是比较高的,不容易出现误检的情况,所以在选择模型的时候,选择的还是准确率较高的YOLOv3。

5.本文核心工作

在这里插入图片描述

扫描二维码关注公众号,回复: 13303097 查看本文章
准备数据集:

首先是数据集的获取,本次采用的数据集来自多个方面,整合了网络上比较散的数据集,戴口罩是部分数据集,没戴口罩是另外一些数据集,由于数据集来自各个方面,且xml内容不符合本次训练,所以需要使用标注工具重新对所有照片进行标注。

下载labelImg工具,运行labelImg.py出现以下界面即为标注界面,将上一步获取到的图片进行标注,将整个脸部作为目标框标注出位置,并写入相应的数据标签hava_mask或者no_mask。

数据集处理按照ppt讲就行,物体类别加入“由于在存放图片时会有序的将两类图片分开,但是这样的顺序直接训练模型效果是不好的,所以在代码中需要随机打乱数据集进行训练"。

k-means聚类算法

左图是kmeans的具体算法,用来生成合适的先验框,
实际上,聚类的目的是先验框和真实框有更大的IOU值,IOU指的是先验框和真实框之间的交并比
最理想的情况下是IOU为1时,即先验框和真实框完全重叠,此时两者之间距离最小,聚类效果最好
k-means拿到数据里所有的目标框,得到所有的宽和高,在这里面随机取得9个随机中心,之后以9个点为中心得到9个族,不断计算其他点到中点的距离调整每个点所归属的族和中心,直到9个中心不再变即可。这9个中心的x,y就是整个数据的9个合适的anchors框的宽和高。

训练模型

有了数据集和合适的先验框后,开始训练模型了。
这是模型训练时输出的信息,这里有个重要的信息loss,loss能够反应模型的学习程度,loss下降幅度大,说明网络在正常学习,下降幅度变小,说明网络训练得差不多了
在每次迭代后都会输出模型权重文件,文件的命名使用loss和val_loss,这样方便后续查找比较好的模型

评估模型

训练完后需要对模型进行一个评估,由于keras没有实现对检测模型的评估代码,所以需要额外地引入mAP来评估模型的准确率,如图取的是loss值为15的模型,AP达到76.49%,准确率和召回率都是比较高的,如果都比较低的话就需要考虑对模型进行一个优化

模型优化

本文从以下两个方面,对模型进行优化
第一方面:反复实验先验框的尺寸和数量,右图是部分先验框数据,实际训练通过不断地修改先验框尺寸从而找到恰当的先验框,来加快训练收敛速度
第二方面:参数调整,通过控制变量法调整参数,包括学习率,epoch,batch-size等

这是通过调整学习率来优化模型,通过反复实验发现学习率为0.001的时候效果是比较好的。loss最终在12左右
另外尝试加入函数ReduceLROnPlateau来调整学习率,这个函数是用来监测某个指标的,本文通过监测loss值,
当指标不再提升时,减少学习率。当学习停滞时,减少2倍或10倍的学习率以此获得更好的效果。

具体流程

所以整个实现过程是这样的:
将训练的图片输入训练模块,训练后将网络的权重保存起来,便于预测与再次训练使用。
预测模块通过读取模型的网络权重,对输入的测试图片或视频进行预测,最终输出带有预测标注的图片或视频。

6.成果展示

这里可以演示一下自己的项目,答辩前准备好。

7.总结与展望

通过对比多个模型,YOLOv3在准确率和速度上相对较优秀,确定了YOLOv3为基础框架后开始训练模型,选取合适的先验框能够加快训练收敛速度,通过增加迭代次数,调整学习率等方式不断尝试以获取最优的模型
接下来是两个展望:
在成果展示的时候可以看到在检测密集和多角度的场景下,漏检情况会比较明显,所以在人脸识别和先验框选取的算法上还有待改进
第二个展望:目前只是通过笔记本调用自身摄像头进行的一个实时检测,希望后续有能力的情况下实现能在移动端和嵌入式系统中使用。

评审老师给的意见:

1.论文中对实验叙述太少,建议增加
2.建议对系统加个报警功能啥的
3.数据集1000多张还是太少,建议多增加些数据集

最后吐槽

临毕业真的好多繁杂事,又因为疫情没办法回学校,论文,一些毕业资料都得邮寄过去,又要搞什么实习协议,就业协议烦得要命(就业协议好像也不能保障学生的权益,公司反悔你拿这个协议也没多大用,纯粹就是学校为了保障就业率,还使劲地催你去完成。。。)
对了,选对指导老师真的很重要!!!我的指导老师就超牛逼!!!既腻害又负责仁,哈哈哈哈哈~~~

猜你喜欢

转载自blog.csdn.net/callmeCassie/article/details/106311409
今日推荐