论文解析:Motion Guided Spatial Attention for Video Captioning

简介

    这篇论文是复旦大学姜育刚教授团队发表在2019 AAAI上的一篇论文,这篇论文的主要思想是通过光流图“引导”空间上的注意力,从而实现视频字幕生成的任务。我个人认为这篇论文的思想较为新颖,合理,因此详细的阅读了这篇文章并再此做一个记录。

1.论文思想

    这篇论文中提到一个人类视觉注意力的一个“习惯”:人类的注意力更容易被视频中明显变化的区域所吸引。基于这个观点,这篇文章提出一种非常有效并且十分合乎逻辑的方法—利用光流图引导空间注意力。
    在Two-stream Convulutional Network for Action Recognition中提出利用光流图来描述行为的动态性,因为行为的发生往往包含方向和位移量两个方面,而光流图正是通过计算连续两帧RGB帧之间逐个像素点的位移形成的“位移图”,在光流图中,发生变化的区域正是发生行为的区域,因此选用光流图来引导空间注意力,正是将网络在学习过程中的重点放在了行为这一关键上。

2.实现细节

    这篇论文中提出的方法主要包括以下几个模块:
    

  • 粗糙attention map的提取
  • RGB帧对应的feature map的提取
  • 对粗糙attention map的修正
  • attention map驱动下的对RGB帧的特征编码
  • 对RGB帧编码后的特征进行解码,生成词向量

接下来对这几个子模块依次进行介绍。

(1)粗糙attention map的提取

    论文中提出用光流图来引导空间注意力的方法,就是通过对光流图进行卷积,得到的feature map作为一个权重矩阵,在这篇论文中这个权重矩阵被称为attention map。
    首先对视频帧进行随机采样,采样后的几帧就认为是key frame,然后以每一个key frame为中心,选取其前后的M帧进行光流的计算,得到了2M帧光流图(x方向和y方向),接下来,将这2M帧光流图送入到一个5层的CNN中(原作者在论文中提到用更深层的网络进行卷积的效果影响不大,5层的CNN是性价比较高的一种选择)进行卷积,得到的feature map即为该key frame所对应的粗糙的attention map。

(2)RGB帧对应的feature map的提取

    同样的,RGB帧也被送入到一个预训练好的CNN中,卷积提取局部特征,得到了一个feature map,通道数为D。

(3)对粗糙attention map的修正

    如前文所述,将光流送入到CNN中得到的attention map仅为粗糙的attention map(不包含前后帧之间的关系,仅描述局部特征),因此作者提出了一个GRU-liked的结构GARU,用于修正粗糙的attention map。GARU结构如下图所示:
GARU结构
    作者认为,一个行为在时间上是连续的,那attention map在key frame周围也应当是连续的,因此,GARU单元的主要目的是对粗糙的attention map进行修正,聚合连续时刻的attention map。

(4)attention map驱动下的对RGB帧的特征编码

    该模块是将(2)和(3)中得到的key frame对应的feature map和修正后的attention map进行加权聚合,如下述两个公式所示。
在这里插入图片描述
    这个公式实际上就是softmax函数在attention map上沿着空间维度的应用。
在这里插入图片描述
    上述两个公式用于描述attention map和RGB帧的特征如何聚合。聚合后得到的特征向量即为利用光流图作为“权重”,重点关注在RGB帧上的行为。

(5)对RGB帧编码后的特征进行解码,生成词向量

    该模块为解码部分,即利用得到的聚合后的特征向量Gna与不同时刻的β进行聚合,得到不同时刻的词向量。结构如下图所示。
在这里插入图片描述
    解码部分主要实现的任务是将视频中不同关键帧聚合后得到的不同时刻的G向量送入2层lstm中进行词向量的预测,也就是基于前t-1个时刻的词向量,和Gt,计算t时刻下词向量Xt的条件概率。其中,聚合的部分β的参数是随着不同时刻两层lstm中隐藏状态变化而变化的,如下面的公式所述。
在这里插入图片描述
    描述两层lstm的计算内容和结果。
在这里插入图片描述
    更新β参数的方式。

3.实验结果

在这里插入图片描述
其中BLEU@4,CIDEr, 和 METEOR都属于自然语言处理领域的衡量指标,关于详细的度量指标介绍可以点击这里查看。

4.总结

    这篇文章的想法就我个人看来非常新颖,利用光流作为驱动让网络更加集中于视频帧中变化的行为,从而生成对行为的描述。

猜你喜欢

转载自blog.csdn.net/zuber123/article/details/89843576