V4d:4d Convolutional Neural Networks For Video-level Representation Learning

本文是一篇ICLR2020的文章
文章地址:
http://xxx.itp.ac.cn/abs/2002.07442
Open Review:
https://openreview.net/forum?id=SJeLopEYDH

Background

对于视频分类、动作识别等任务来说,如何简洁、高效地建模时序信息一直是重要的研究问题。3D-CNN的提出虽然提供了一个时序建模的方案,但是它的运算量一直使他无法真正完成对时序信息的完整建模。受此限制,3D卷积实际只能完成对局部时序片段(clip-level)的建模,而不能实现对整段视频的长时间(long-term/video-level)建模。后续的I3D等技术虽然在一定程度上降低了参数量和计算量,但依旧只能完成clip-level的时序建模。
目前方法的pipeline可以总结如下:
对每一个视频而言,采样出一系列的片段(比如一组4帧),对每一个片段分别建模,得到一系列的clip-level特征;将他们分别输入分类器,获得一系列的score,在最后进行score的融合。

在这里插入图片描述

Method

本文认为,应该通过捕捉时序片段之间的信息(capture inter-clip interactions)来完成整段视频的长时序建模(video-level)。
在这里插入图片描述

文章提出了一种4D卷积,用于捕捉clip之间的信息。
这个方法的关键在于,4D的这个第四维是什么?答曰:片段。除去height和weight这两维外,第三维是clip内部的时序T,而第四维是clip外部的时序。第四维的信息即是clip和clip之间的信息。
在这里插入图片描述

文章将一段视频分为U个Action Unit, Action Unit内部和之前的3D卷积无异,一系列的Action Unit组成了第四个维度U。(之前的3DCNN是把Action Unit当做batch中的N处理,即分别对Action Unit做特征提取、置信度计算,在最后阶段做一个置信度层面的融合)

在pipeline上,文章为了让性能不会发生退化,采用了residual结构,在每个3D层之间插入4D residual block。
在这里插入图片描述对Action Unit先用3D-CNN提取时序特征,然后再提取action unit之间的信息,然后将这个信息加回去。

在这里插入图片描述

这里的 φ ( C , U ) \varphi(C, U) 代表对张量的C和U进行维度对调,因为对3D卷积来说,U这个维度不参与运算,所以放在C前面,4D要参与运算,所以放到C后面。

对于4D卷积来说,它的参数量是 k × k × k × k k \times k \times k \times k ,为了降低参数量,文章提出了两种简化版本: k × 1 × 1 × 1 k \times 1 \times 1 \times 1 k × k × 1 × 1 k \times k \times 1 \times 1 。文章经过实验发现第二种性能没什么下降,采用的是第二种的设计。
在这里插入图片描述
在这里插入图片描述

Experiment

文章做了消融实验,有以下几个结论:

扫描二维码关注公众号,回复: 9521801 查看本文章
  1. 和3D-CNN比起来有效(75.6% Vs. 73.0%)
  2. 4Dblock需要放在较后的层(res3, res4),等3D卷积提取一些比较好的特征
  3. Flops上升不多(55.1G -> 55.8G)
  4. 对U的数量不敏感(3,4,5,6性能差不多)

文章分别在多个数据集上做了实验,性能有一个明显的提升。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Discussion

文章提出了一种新的long-term建模的技术。从理论上看细究起来并没有很大的创新,更大感受野的3D卷积(如果计算量允许的话),时序带孔卷积,也能从理论上完成4D卷积的功能。此外,4D卷积的第四个维度和第三个维度实际上并不完全正交,理论上并不严格符合4D的定义。
但不可忽略的是,计算性能一直是时序建模的瓶颈,诸多时序建模方面的设计都在于如何降低计算量,所以从这个意义上看,4D卷积还是有其价值的。
最后我存在的一个比较大的疑惑是,4D卷积的卷积核大小就只有3,而在Ablation Study中,文章在3,4,5,6的U上性能差不多,这很奇怪。用图像去理解就是用一个3x3的卷积核去算3x3大小的图片。
如果大家有什么想法话,欢迎一起讨论!

发布了24 篇原创文章 · 获赞 12 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/Woolseyyy/article/details/104589595