【视频行为识别1】视频行为识别几种方法简介—传统方法iDT、双流网络、TSN、C3D

一、传统方法

iDT(improved dense trajectories)改进的密集轨迹特征:"Action recognition with improved trajectories"—ICCV2013

---iDT方法(13年)是深度学习进入该领域前效果最好,稳定性最好,可靠性最高的方法,不过算法速度很慢。

 基本思路:

      IDT算法的基本思路为利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory4种特征,其中HOF基于灰度图计算,另外几个均基于dense optical flow计算。最后利用FV(FisherVector)方法对特征进行编码,再基于编码结果训练SVM分类器。而iDT改进的地方在于它利用前后两帧视频之间的光流以及SURF关键点进行匹配,从而消除/减弱相机运动带来的影响,改进后的光流图像被成为warp optical flow。

    详情见:https://blog.csdn.net/chen1234520nnn/article/details/105226585

       

 

二、Two Stream Network及衍生方法

1、Two-StreamConvolutional Networks for Action Recognition in Videos”(2014NIPS)

Two Stream方法最初在这篇文章中被提出,基本原理为对视频序列中每两帧计算密集光流,得到密集光流的序列(即temporal信息)。然后对于视频图像(spatial)和密集光流(temporal)分别训练CNN模型,两个分支的网络分别对动作的类别进行判断,最后直接对两个网络的class score进行fusion(包括直接平均和svm两种方法),得到最终的分类结果。注意,对与两个分支使用了相同的2D CNN网络结构,其网络结构见下图。

 实验效果:UCF101-88.0%,HMDB51-59.4% 

2、ConvolutionalTwo-Stream Network Fusion for Video Action Recognition“(2016CVPR)

这篇论文的主要工作为在two stream network的基础上,利用CNN网络进行了spatial以及temporal的融合,从而进一步提高了效果。此外,该文章还将基础的spatial和temporal网络都换成了VGG-16 network。

实验效果:UCF101-92.5%,HMDB51-65.4%

 

三、TSN网络

3、TemporalSegment Networks: Towards Good Practices for Deep Action Recognition

这篇文章是港中文Limin Wang大神的工作,他在这方面做了很多很棒的工作,可以followt他的主页:http://wanglimin.github.io/ 。

这篇文章提出的TSN网络也算是spaital+temporal fusion,结构图见下图。这篇文章对如何进一步提高two stream方法进行了详尽的讨论,主要包括几个方面(完整内容请看原文):

1.    输入数据的类型:除去two stream原本的RGB image和 opticalflow field这两种输入外,这篇文章中还尝试了RGB difference及 warpedoptical flow field两种输入。最终结果是 RGB+optical flow+warped optical flow的组合效果最好。

2.    网络结构:尝试了GoogLeNet,VGGNet-16及BN-Inception三种网络结构,其中BN-Inception的效果最好。

3.    训练策略:包括跨模态预训练,正则化,数据增强等。

实验效果:UCF101-94.2%,HMDB51-69.4% 

 

四、C3D

略,其他文章有专门对C3D的介绍。

 

 

猜你喜欢

转载自blog.csdn.net/chen1234520nnn/article/details/104864345
今日推荐