【视频行为识别1】视频行为识别几种方法简介—传统方法iDT、双流网络、TSN、C3D

一、传统方法

iDT（improved dense trajectories)改进的密集轨迹特征："Action recognition with improved trajectories"—ICCV2013

---iDT方法（13年）是深度学习进入该领域前效果最好，稳定性最好，可靠性最高的方法，不过算法速度很慢。

基本思路：

IDT算法的基本思路为利用光流场来获得视频序列中的一些轨迹，再沿着轨迹提取HOF，HOG，MBH，trajectory4种特征，其中HOF基于灰度图计算，另外几个均基于dense optical flow计算。最后利用FV（FisherVector）方法对特征进行编码，再基于编码结果训练SVM分类器。而iDT改进的地方在于它利用前后两帧视频之间的光流以及SURF关键点进行匹配，从而消除/减弱相机运动带来的影响，改进后的光流图像被成为warp optical flow。

详情见：https://blog.csdn.net/chen1234520nnn/article/details/105226585

二、Two Stream Network及衍生方法

1、“Two-StreamConvolutional Networks for Action Recognition in Videos”（2014NIPS）

Two Stream方法最初在这篇文章中被提出，基本原理为对视频序列中每两帧计算密集光流，得到密集光流的序列（即temporal信息）。然后对于视频图像（spatial）和密集光流（temporal）分别训练CNN模型，两个分支的网络分别对动作的类别进行判断，最后直接对两个网络的class score进行fusion（包括直接平均和svm两种方法），得到最终的分类结果。注意，对与两个分支使用了相同的2D CNN网络结构，其网络结构见下图。

实验效果：UCF101-88.0%，HMDB51-59.4%

2、”ConvolutionalTwo-Stream Network Fusion for Video Action Recognition“（2016CVPR）

这篇论文的主要工作为在two stream network的基础上，利用CNN网络进行了spatial以及temporal的融合，从而进一步提高了效果。此外，该文章还将基础的spatial和temporal网络都换成了VGG-16 network。

实验效果：UCF101-92.5%，HMDB51-65.4%

三、TSN网络

3、”TemporalSegment Networks: Towards Good Practices for Deep Action Recognition”

这篇文章是港中文Limin Wang大神的工作，他在这方面做了很多很棒的工作，可以followt他的主页：http://wanglimin.github.io/ 。

这篇文章提出的TSN网络也算是spaital+temporal fusion，结构图见下图。这篇文章对如何进一步提高two stream方法进行了详尽的讨论，主要包括几个方面（完整内容请看原文）：

1. 输入数据的类型：除去two stream原本的RGB image和 opticalflow field这两种输入外，这篇文章中还尝试了RGB difference及 warpedoptical flow field两种输入。最终结果是 RGB+optical flow+warped optical flow的组合效果最好。

2. 网络结构：尝试了GoogLeNet,VGGNet-16及BN-Inception三种网络结构，其中BN-Inception的效果最好。

3. 训练策略：包括跨模态预训练，正则化，数据增强等。

实验效果：UCF101-94.2%，HMDB51-69.4%

四、C3D

略，其他文章有专门对C3D的介绍。