行为识别论文——《基于YOLOv4-tiny的煤矿职工井下违章行为识别的研究》

一、绪论

1、背景与意义

煤矿重要,因此煤矿的安全生产重要。
目标检测是一项基础的工作,用来
(1)判断图像是否存在目标
(2)确定目标位置和数量
(3)对待测目标分类
说了目标检测的重要性:
模型优化方法:引入注意力机制模型,对模型进行优化,提高准确率。
【注意力机制是万能的,不知道怎么改进,就加注意力机制。】

2、国内外研究现状

(1)目标检测

目标检测的发展历程:
(1)2001年,VJ检测器,奔腾处理器上运行,对人脸检测
(2)2005年,定向梯度直方图(HOG),用于物体的检测与分类,在行人检测与识别有很好的效果。
(3)多尺度形变部件模型(DPM),VOC2008、VOC2007检测挑战赛第一名,是传统目标检测方法的优秀作品。
(4)2012年,AlexNet,卷积神经网络又回来了,目标检测算法从此来到深度学习时代。
(5)目前学术界目标检测算法分为两大类,一类以RCNN为代表的双阶段(two-stage),另一类以YOLO为代表的单阶段(ont-stage)。
(6)2014年,R-CNN,第一步用选择性搜寻得到所有候选框的特征,第二步将每个候选框缩放到固定尺度的图像上,进行特征提取。最后用线性分类器对每个区域内可能存在的目标进行预测和分类。
(7)2014年晚些时候,空间金字塔池化网络(SPPNet)解决了RCNN检测速度慢的问题。
(8)2015年,FastRCNN解决了SPPNet卷积层和池化层对网络的影响,改进了网络的训练策略,在训练检测器的同时对边界框回归器进行训练。
(9)2016年,FasterRCNN解决了模型整合的问题,首个端到端的检测器。使用了区域建议网络(RPN)是FasterRCNN是它取得巨大成功的主要原因。
(10)2017年,特征金字塔网络(FPN)对FasterRCNN进行改进和优化。其自顶向下
(11)2016年,YOLO被提出,其将目标检测问题转换为回归问题。这种思想使网络的检测速度大幅度提高。但对于小目标的检测,其检测精度不如RCNN
(12)2016,SSD(单激发多盒监测器)算法,弥补了单阶段检测算法对较小物体精度第的不足。

(2)行为识别

  • 2006年,Moeslund将人体行为划分为:基本动作,个体行为,交互行为和群体行为
  • 行为检测一般是按照这个流程进行实现。在这里插入图片描述

2005年,提出时空兴趣点
2007、年,提出二维R变换的子轮廓剪影
深度学习的行为检测算法一般有:*双流网络(Two-stream Network); *3D卷积网络;*首先玻尔兹曼机(RBM)等
2014年,提出双流法对行为进行识别和分析。

二、行为识别相关理论知识

1、卷积神经网络

卷积神经网络是由人工神经网络发展改进而来,最近几年,越来越多的深度学习算法采用卷积神经网络作为基础网络模型,下图是卷积神经网络(CNN)的结构简图。
在这里插入图片描述
  可以看出,CNN是不断卷积和池化的过程,网络的输出由全连接层实现,在CNN中,全连接层使用传统的BP神经网络。
y w , b ( x ) = f ( w T x + b ) = f ( ∑ i = 1 n w i x i + b ) y_w,_b(x)=f(w^Tx+b)=f(\sum_{i=1}^nw_ix_i+b) yw,b(x)=f(wTx+b)=f(i=1nwixi+b)
其中w是权重,b是偏置,f被称为激活函数,上式也被称为逻辑回归模型
  常见激活函数有:sigmoid、Relu、LeakyRelu和tanh函数等
sigmoid
h ( x ) = 1 1 − e − x h(x)=\frac{1}{1-e^{-x}} h(x)=1ex1
ReLU
在这里插入图片描述
LeakyRelU
在这里插入图片描述
tanh:
在这里插入图片描述

2、迁移学习

 监督学习是一种常用的机器学习方式。若迁移学习运用于监督学习的预训练过程中,可以大幅提升训练速度与训练效果。
在这里插入图片描述

迁移学习的步骤:

  • (1)首先封存网络部分功能,使用他人已经训练好的模型权重做出初始权重,对自己的数据集进行预训练。
  • (2)经过一定次数的训练和迭代后,对网络进行解封,使用已经训练多次的权重参数对解封后的模型进行训练,完成自己的训练目的
  • (3)进行微调,得到自己需要的新模型。

迁移学习的4个特点

  • (1)提升了对不同目标人物的泛化能力,在海量的数据集也有较好效果
  • (2)被冻结的层数越多,模型训练效果越差。两个数据集差异性越大,特征迁移的效果就越差。
  • (3)即使待迁移的任务与原任务存在一定差异,迁移学习的效果也比直接训练的结果好。
  • (4)通过对初始参数的迁移学习,可提升网络模型对不同任务的适应性。即使目标任务存在大量参数调整,依然存在较好的训练效果。

迁移学习的两个问题:

  • (1)迁移学习会使网络存在断开情况,优化网络存在一定困难
  • (2)在某些深度卷积神经网络中,部分只有在深层网络出现的特征可能会因迁移学习的使用,存在深层特征丢失的情况。

3、注意力机制

  注意力机制在深度学习的各个领域得到了广泛的使用。分为通道注意力机制、空间注意力机制。但是注意力机制不是万能的,有可能会导致网络精度损失,还不如不用。

三、数据采集及预处理


 这也能作为单独一章??不知道写啥可以不写……

1、 设备和编程语言

在这里插入图片描述

2、数据处理

(1)高斯滤波

  特点:可去除椒盐噪声(俗称雪花点),使用高斯滤波器可以很好的对图像进行去模糊化。
【作为读者的看法:中值滤波对椒盐噪声有用,高斯滤波用于去除高斯噪声。】
  与均值滤波相比,高斯滤波的更平滑,更柔和;边缘信息的保存效果比均值滤波好的多。

(2)直方图均衡化

  直方图均衡化是对图像像素值的非线性拉伸,对图像像素值进行了重新分配。经过一系列操作后,某一灰度范围内的像素数量大致相同,不会有明显差别。
【可以理解为增加了图像的对比度,图像鲜艳的部分更鲜艳,暗的地方更暗淡】

(3)数据集的制作

  采用基于QT框架的labelImge.
  将数据集的目标分为6类:sit,stand,walk,work,open_door,train。
  【疑问:目标检测网络可以直接做行为检测吗??好像可以】

四、基于YOLOv4-tiny的煤矿职工井下违章行为识别的研究

1、YOLOv4-tiny简介

  是YOLOv4的轻量版,下面是网络特征结构图:
在这里插入图片描述
  前边是骨干网络(CSPDarkNet54-tiny),中间是连接了一个特征金字塔(FPN),后面是分类器和特征融合模块。
  YOLOv4-tiny仅有38层,而YOLOv4有162层。
  通过使用CSP网络,在网络轻量化的同时,增强了CNN的学习能力,减少了网络在训练时的内存消耗。
  FPN会将CSPDarkNet的最后一个有效特征层卷积后进行上采样,然后与上一个有效特征层进行堆叠并卷积。
YOLOv4-tiny的特点:

  • (1)特征提取部分,yolov4-tiny提取了两个特征层进行目标检测,两个特征层大小分别为:(38, 38, 128),(19, 19, 512)。
  • (2)输出层大小分为(19, 19, 75)(38, 38, 75),tiny只针对每个特征层存在3个先验框,最后一个维度为3 * 25。25 = (20 + 4 +1)
    20是VOC数据集;4是横纵坐标;1是置信度

2、性能指标

  • TP:真的正样本(被正确分类的正样本)
  • TN:真的负样本
  • FP:假的正样本
  • FN:假的负样本
    在这里插入图片描述

3、学习率优化器的选择

(1)等间隔法

(2)余弦退火算法

  在pytorch中,采用余弦优化器实现模拟退火算法。
在这里插入图片描述
  通过对两种方法的对比,得知,通过使用余弦退火算法对学习率调整,提升了模型的检测精度。比等间隔发提高2.5%。综上所述,本节选用余弦退火算法作为学习率调整策略。

4、与其他模型对比

经过实验对比,得到yolov4-tiny的表现不突出,平均准确度均值不如SSD和YOLOv3.yolov4-tiny部分行为检测准确度高于SSD,但低于YOLOv3.
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
  在这里,列出了三种模型的实际场景可视化效果,【虽然看不出什么,但实际场景必不可少】。对于一个行为检测系统来说,检测准确率是第一位的;对于一个实时检测系统来说,检测精度是第一位的。
  由于YOLOv3网络深度大,因此训练时读取的数据量比yolov4-tiny大得多,训练时间也是tiny的2-3倍。

5、本章小结

  学习率初值设置为0.001是最好的,余弦优化器的模型检测效果比等间隔优化器好。
  SSD速度虽然和yolov4-tiny差不太多,但是它对于小目标的检测不如YOLO系列。yolov4-tiny的检测精度(map)不如YOLOv3,均能检测小目标。YOLOv3的训练时间是yolov4-tiny的一倍以上。推理时yolov3迭代一次需要5分钟甚至更长的时间。
  上述实验表明,选取yolov4-tiny,能实现对视频监控中职工的行为进行识别和判断,并具有一定的实时性和准确性。

五、改进的yolov4-tiny算法的煤矿职工井下违章行为识别研究

0、引言

本章将引入注意力机制的概念,用来提高模型的检测效果。

1、不同注意力机制简介

(1)SE-NET

  SE-NET可以获取通道的全局特征,可更加关注信息量大的通道特征,抑制不重要的特征。
SE-NET的实现步骤:

  • (1)首先将每个通道H*W个数全局平均池化得到一个标量,这一步被称为压缩。
  • (2)两次全连接后得到0-1之间的一个权重值,对原始的每个H*W的每个元素乘以对应通道的权重,得到新的特征图,这一步被称为激活。

(2)ECA-NET

(3)CBAM

【本章讲的基本上都是注意力机制,最糟糕的是,没有说清楚注意力机制加到yolov4-tiny的那个地方了】
如果想要学习注意力机制,建议看以下链接:
大佬写的注意力机制博客,里面附带代码和详细讲解以及视频

这一章就不看了,实验结果就是将加了各种注意力机制的预测准确度进行了对比。
结论为:加入注意力机制后,模型对于不安全行为识别的准确率有所提高。但是注意力机制的加入,降低了模型的检测速度,分析原因后得出检测速度的降低是因为模型网络参数的增加降低了检测速度。

六、读完的评价

  本篇论文创新点较少,而且仿真图也十分模糊;从头读到尾,就知道了一个创新点:注意力机制。总体来说,不像是一篇硕士论文。
  优点:国内外现状部分概括的比较详细,关于注意力机制的基础知识叙述的也比较好;仿真部分放了实际场景的可视化效果图,虽然不清楚,但是聊胜于无。
  这篇论文发表与2021年,但是感觉有些古老!



    总结:像是凑数!




猜你喜欢

转载自blog.csdn.net/weixin_44463519/article/details/126993732