本文提出一个时空、通道、运动激励模块来嵌入到2D CNN 中以解决目前的难题，即2D CNN虽然计算量小但不能捕捉时间关系而3D CNN可以捕捉空间关系但计算量大。
CVPR2021
论文地址：https://arxiv.org/abs/2103.07372
代码地址：https://github.com/V-Sense/ACTION-Net

1. 总述

时空、通道和运动模式是视频动作识别中三种重要的互补信息。传统的2D CNN计算量小，但不能捕捉时间关系；3D CNN可以获得良好的性能，但计算量大。

为此，本文提出了一种时空、通道和运动激励（ACTION）模块，包括三条路径：时空激励（STE）路径、通道激励（CE）路径和运动激励（ME）路径。STE路径采用单通道3D卷积来表征时空表示。CE路径通过在时间方面显式地建模通道之间的相互依赖性来自适应地重新校准通道特征响应。ME路径计算特征级的时间差，然后利用这些时间差来激励运动敏感通道。

2. 网络结构

在这里插入图片描述
ResNet-50的ACTION-Net体系结构如图所示。首先将输入视频平均分割成T个片段，然后从每个片段中随机抽取一帧以获得输入的T帧图片。在每个残差块的开始处插入ACTION模块（其中STE，CE，ME三个模块并行使用），最终得到分类结果（CLS表示类的个数，T表示视频帧的个数）。

2.1 Spatio-Temporal Excitation (STE) 模块

在这里插入图片描述

首先对输入 $X (N \times T \times C \times H \times W)$ 的通道进行平均，得到相对于通道轴的全局时空张量 $F (N \times T \times 1 \times H \times W)$
然后reshape $F$ 为 $N \times 1 \times T \times H \times W$ 大小
之后送入卷积核为3×3×3的3D卷积中得到 $F^*$
接着将 $F^*$ reshape为 $F_o(N×T×1×H×W)$
将 $F_o$ 送入Sigmoid激活层，得到mask $M (N \times T \times 1 \times H \times W)$
将M乘上X再加上X最为这部分最终的输出

与传统的3D卷积运算相比，STE的计算效率更高，因为输入到3D卷积中的特征 $F^*$ 是跨通道平均的。输入 $X$ 的每个通道都能从一个精细的特征激励 $M$ 中感知时空信息的重要性。

2.2 Channel Excitation(CE) 模块

在这里插入图片描述
CE的设计类似于SE，CE和SE的主要区别在于，CE在两个FC层之间插入了一个1×1卷积层来描述信道特征的时间信息。在给定输入 $X (N \times T \times C \times H \times W)$ 的情况下：

首先通过空间平均池化来获取输入特征的全局空间信息 $F$
接着使用1×1卷积来squeeze $F$ 的通道数（本文压缩倍数为16）得到压缩后的特征 $F_r$
reshape $F_r$ 为 $\frac{C}{r} ×T ×1×1$ 大小得到 $F^∗_r$
再经过3的1维卷积后得到 $F^∗_{temp} (N× \frac{C}{r} ×T ×1×1)$
然后reshape $F^∗_{temp}$ 为 $F_{temp} (N×T × \frac{C}{r} ×1×1)$
接着经过1×1的2维卷积来unsqueeze $F_{temp}$ 为 $N \times T \times C \times 1 \times 1$ 得到 $F_o$
将 $F_o$ 送入Sigmoid激活层，得到mask $M (N \times T \times C \times 1 \times 1)$
最后，M乘上X再加上X作为这部分的最终输出

2.3 Motion Excitation (ME)模块

在这里插入图片描述
运动信息由相邻帧建模，采用与CE模块相同的squeeze-unsqueeze策略。

运动特征的建模表示为（K为3×3卷积）：
$\mathbf{F}_{m}=\mathbf{K} * \mathbf{F}_{r}[:, t+1,:,:,:]-\mathbf{F}_{r}[:, t,:,:,:]$

首先输入经过1×1卷积进行squeeze操作
根据上式计算各帧的运动特征
然后根据时间维度将运动特征彼此串联，0填充到最后一个位置，表示为 $\mathbf{F}_{M}=\left[\mathbf{F}_{m}(1), \ldots\right.,\mathbf{F}_{m}(t-1),0]$ ， $\mathbf{F}_{M}$ 大小为 $\times T \times \frac{C}{r} \times H \times W$
接着 $\mathbf{F}_{M}$ 依次经过空间平均池化、1×1卷积的unsqueeze操作，sigmod激活后得到maks M
M乘以X再加上X作为这部分的最终输出

3. 实验

（1）在 Something-Something V2, Jester 以及 EgoGesture 数据集上与SOTA的对比：
在这里插入图片描述
（2）越多的ACTION模块加在残差块上性能越好：

（3）ACTION-net具有良好的通用性以及收益：

论文笔记之ACTION-Net: Multipath Excitation for Action Recognition