R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/gentelyang/article/details/80483841

1:时序检测(Tmporal Action Detection)时序动作检测这一 方向,Video Analysis相关领域解读之

Temporal Action Detection(时序行为检测)是要在视频序列中确定动作发生的时间区间及动作的类别,类似于

图像中的目标检测任务,时序检测也可以分为生成时间区间提名及对提名进行分类两个环节。

该任务是在视频序列中确定动作发生的时间区间及动作的类别,最常用的数据库为THUMOS14,其余常用的数据库

还包括MEXaction2,ActivityNet 1.2/1.3等,常用的评测指标为mAP。

2:网络模型


2.1:C3D网络


对于基于视频分析的问题,2D convolution不能很好得捕获时序上的信息。

针对图像进行的,使用的是二维卷积(即卷积核的维度为二维)。

扫描二维码关注公众号,回复: 4908346 查看本文章

learning Spatiotemporal feature with 3DConvolutional Networks(C3D网络论文)

2.2:Proposal Subnet

时序候选框提取网络,类似Faster R-CNN中的RPN,用来提取一系列可能存在目标的候选框。这里是提取一系列可能存在行为的候选时序。


流程:
Step1:候选时序生成
· 输入视频经过上述C3D网络后得到了512 x L/8 x H/16 x W/16大小的特征图。
Step2: 3D Pooling
· 将空间上H/16 x W/16的特征图经过一个3x3x3的卷积核和一个3D pooling层下采样到 1x1。最后输出 512xL/8x1x1。
Step3: Training
 判定得到的候选时序是正样本还是负样本
· 正样本:IoU > 0.7,候选时序帧和ground truth的重叠数

· 负样本: IOU < 0.3

2.3:Classification Subnet

流程:

Step1: NMS
针对Temporal Proposal Subnet提取的segment,采用NMS(Non-maximum Suppression)非极大值抑制生成需要的的proposal。NMS 阈值为0.7。
Step2:3D RoI
利用ROI将Proposal调整到固定尺寸。
Step3: 全连接层

经过池化后,再输出到全连接层。最后接一个边框回归(start-end time )和类别分类(Activity Scores)。

损失函数:


3:实验及分析

3.1:数据集

数据集:THUMOS’14
该数据集包括24小时下,20中不同运动的视频数据集。
training dataset :2765修剪的视频
val dataset:200个未修剪的视频

test dataset:213个未修剪的视频

3.2:实验结果分析


作者取得是IOU为0.1,0.2,0.3,0.4,0.5时的map值。


IOU=0.5时,在不同类别上的ap值,以及最后的map值与[20],[39],[24]三种方法的对比。




4:总结

一:可以针对任意长度视频、任意长度行为进行端到端的检测。
二:速度很快(是目前网络的5倍),通过共享Progposal generation 和Classification网络的C3D参数
三:通用性比较好,在不同数据集上的通用性效果非常好。

猜你喜欢

转载自blog.csdn.net/gentelyang/article/details/80483841