行为识别简述

目录

一.背景介绍

二.主要方向

三.常用方法

3.1传统方法

3.1.1 时空关键点(space-time interest points)

3.1.2 密集轨迹(dense-trajectories)

3.2 基于深度学习的方法

3.2.1 3D卷积网络(C3D)

 3.2.2 图卷积网络(GCN)

3.2.3  LSTM(长短期记忆网络)

四.常用数据集

4.1 HMDB-51

4.2 UCF-101

4.3 The Hollywood Dataset2


一.背景介绍

       行为识别研究的是视频中目标的动作,比如判断一个人是在走路,跳跃还是挥手。在视频监督,视频推荐和人机交互中有重要的应用。近几十年来,随着神经网络的兴起,发展出了很多处理行为识别问题的方法。不同于目标识别,行为识别除了需要分析目标的空间依赖关系,还需要分析目标变化的历史信息。这就为行为识别的问题增加了难度。输入一系列连续的视频帧,机器首先面临的问题是如何将这一系列图像依据相关性进行分割,比如一个人可能先做了走路的动作,接下来又做了挥手,然后又跳跃。机器要判断这个人做了三个动作,并且分离出对应时间段的视频单独进行判断。其次机器要解决的问题是从一幅图像中分离出要分析的目标,比如一个视频中有一个人和一个狗,需要分析人的行为而忽略狗的。最后是将一个人在一个时间段的行为进行特征提取,进行训练,对动作做判断。

二.主要方向

1. 动作分类,给出一个视频截断,判断视频的动作类别,或者称为offline。

2.动作识别,给出一个自然视频,没有进行任何的裁剪,这个时候需要先知道动作的开始时间和结束时间,然后还要知道动作的类别。

三.常用方法

3.1传统方法

3.1.1 时空关键点(space-time interest points)

        提取时空关键点基于的主要思想是:视频图像中的关键点通常是在时空维度上发生强烈变化的数据,这些数据反应了目标运动的重要信息。比如一个人挥舞手掌,手掌一定会在前后帧中发生最大移动,其周围图像数据发生变化最大。而这个人的身体其他部位却变化很小,数据几乎保持不变。如果能将这个变化数据提取出来,并且进一步分析其位置信息,那么可以用于区分其他动作。

       时空关键点的提取方法是对空间关键点方法的扩展,描述一幅多尺度图像f(x,y)最普遍是使用高斯变换:

        G为高斯函数,不同的方差会产生出不同分辨率的图像。Harris等就是在不同尺度图像上进行拉普拉斯变换,Harris使用如下量来寻找关键点:

        关键点的方法比较古老,这种方法忽略了很多视频细节,可能会丢失很多信息,泛化能力较弱。而且其将时间维度和空间维度进行等同处理,但是时间和空间的特征是不一样的。提取的时空关键点可能并不会很好的反应动作信息。

3.1.2 密集轨迹(dense-trajectories)

       密集轨迹算法(Dense Trajectories算法):Improve dense trajectory简称iDT,是一种用来提取视频密集跟踪轨迹的算法,通常基于该轨迹进行取块计算descriptor。

如图所示即为算法的基本框架,包括:

1.密集采样特征点

2.特征点轨迹跟踪

3.基于轨迹的特征提取

四种特征:

1.trajectory轨迹特征:

       每条trajectory都可以提取一个轨迹特征向量S'(当L=15,S’为30维),对局部动作模式进行编码。

2.HOG特征:

       HOG特征计算的是灰度图像梯度的直方图。对视频块进行表面特征描述,直方图的bin数目为8,所以HOG特征的长度为2X2X3X8=96。

3.HOF特征:

       HOF计算的是光流的直方图。直方图的bin数目取为8+1,前8个bin与HOG都相同。额外的一个用于统计光流幅度小于某个阈值的像素。故HOF的特征长度为223*9=108。

4.MBH特征:

       MBH计算的是光流图像梯度的直方图,也可以理解为在光流图像上计算的HOG特征。由于光流图像包括X方向和Y方向,故分别计算MBHx和MBHy。MBH总的特征长度为2*96=192. 最后进行特征的归一化,DT算法中对HOG,HOF和MBH均使用L2范数进行归一化。

3.2 基于深度学习的方法

3.2.1 3D卷积网络(C3D)

       3D卷积顾名思义就是在时间和空间维度上进行卷积运算,3D卷积和pooling可以保留时间上的信息。2D卷积只是在空间维度上进行运算,图像的时间信息会丢失。而3D卷积核pooling输出的是三维数据,其中包含了时间序列上的信息和特征。由于3D卷积运算量很大,为了减小了网络深度和宽度,使用了8层卷积,5层pooling,2层全连接和1层softmax层。

如上为C3D网络结构。

       1.所有3D卷积核均为3×3×3(d x k x k ,d为时间深度),步长为1×1×1

       2.为了在早期阶段保留更多的时间信息,设置pool1核大小为1×2×2、步长1×2×2(时间深度为1时,会单独在每帧上进行池化,大于1时,会在时间轴上,也就是多帧之间进行池化)

       3.其余所有3D池化层均为2×2×2,步长为2×2×2

       4.每个全连接层有4096个输出单元

       3D卷积和池化更适合学习时空特征,通过3D卷积和3D池化,可以对时间信息建模,而2D卷积只能在空间上学习特征。2D卷积输入图像和视频时,输出的都是图像,而3D卷积输入视频后,输出的也是一个视频(3D特征图),保留了输入的时间信息。C3D网络将完整的视频作为输入,不依赖于任何处理,可以轻松扩展到大数据集。

 3.2.2 图卷积网络(GCN)

        基于图的模型在图结构数据上非常好的表达效果。图神经网络有两种结构,一种是图和RNN的结合,另外一种是图和CNN的结合(GCN)。GCN有两种类型,一种是空间GCN,另外一种是谱GCN。其中谱GCN是将图像数据转换到谱空间表达。为了在行为识别中应用GCN,首先需要对视频进行图表达。一张图可以表示为(Vt, et),其中vt是定点,et是边。可以利用姿态估测方法获得目标的关节坐标,然后将这些关节点作为图的点,并按照空间或者时间将这些点连接起来。一个结点的临近节点可以这样表示:

D是定义的节点距离。这样定义之后,就可以将每个节点以及它临近节点划分到同一个组。为这些节点标识后,就想当于一个张量了。那么就可以进行卷积运算了。图卷积通常就表示为:

其中l(v_tj)是节点被标识的序号。X是图表示,W为权重。

上图中g表示进行图卷积计算,fatt是注意力网络。由于Ht中包含了大量的空间和时间信息,对其应用注意力网络有效提高对有效节点的追踪。

3.2.3  LSTM(长短期记忆网络)

       LSTM网络自身的记忆功能就适合处理长时依赖关系的输入信号,而视频正是在时间上变化的图像。因此有论文使用LSTM来提取视频特征。Srivastava等人就采用了LSTM编码解码结构,LSTM编码器将一系列视频图像进行特征提取,生成对视频的描述。而LSTM解码器可以用于视频的预测或者恢复。LSTM的编码器输入可以使任何经过特征提取过的视频信息,比如卷积网络提取出的光流信息或者目标信息,然后在LSTM中进一步学习到时间相关特征。

       传统的RNN节点输出仅由权值,偏置以及激活函数决定。RNN是一个链式结构,每个时间片使用的是相同的参数。如图所示:

       而LSTM之所以能够解决RNN的长期依赖问题,是因为LSTM引入了门(gate)机制用于控制特征的流通和损失。对于上面的例子,LSTM可以做到在t9时刻将t2时刻的特征传过来,这样就可以非常有效的判断 t9 时刻使用单数还是复数了。LSTM是由一系列LSTM单元(LSTM Unit)组成,其链式结构如下图:

       每个黄色方框表示一个神经网络层,由权值,偏置以及激活函数组成;每个粉色圆圈表示元素级别操作;箭头表示向量流向;相交的箭头表示向量的拼接;分叉的箭头表示向量的复制。

四.常用数据集

4.1 HMDB-51

       HMDB51于2011年由Brown university大学发布,视频多数来源于电影,公共数据库以及YouTube等网络视频库。数据库包含有6849段样本,分为51类,每类至少包含有101段样本。主要包含面部动作(smile,laugh..)、肢体动作(climb,dive..)等等。

4.2 UCF-101

       UCF-101是由美国University of central Florida(UCF)于2012年以来发布的一系列数据库。这些数据库样本来自从 BBC/ESPN的广播电视频道收集的各类运动样本、以及视频网站YouTube上的样本。样本为13320段视频,类别包含化妆、音乐器材、运动等。

4.3 The Hollywood Dataset2

       Hollywood-2数据集是由IRISA研究院于2009年发布的,包含了 12 个动作类别和 10个场景共3669个样本,所有样本均是从69部 Hollywood 电影中抽取出来的。

 

猜你喜欢

转载自blog.csdn.net/m0_63156697/article/details/126310386