[论文笔记]ACTION-Net

其他 2021-03-31 09:42:03 阅读次数: 0

ACTION-Net: Multipath Excitation for Action Recognition

摘要

时空、信道、运动模式为视频动作识别的互补关键信息
2D不能捕捉时间信息，3D计算量大
ACTION嵌入模块包括三部分
时空激励STE路径单通道三维卷积表征时空特征
通道激励CE 自适应校准通道特征响应显示建模通道之间的时间依赖
运动激励ME 计算特征级别的时间差异激发运动敏感通道
ACTION优于（resnet50、MobileNet v2、BNInception）

1.Introductions

贡献:
在这里插入图片描述

即插即用的动作模块
简单而有效的神经结构
在三个数据集上有优秀的性能

2.Related Works

2.1 3D-CNN框架

I3D将ImageNet的2D卷积核换成了3D卷积核
I3D使用双流架构表示运动模式
问题：参数多、过拟合、难聚合

2.2 2DCNN-based框架

TSN均匀稀疏采样方案直接使用2D cnn缺乏对视频序列的时间建模
TSM 将部分频道的移位操作嵌入2Dcnn 缺乏对动作（相邻之间的差异）的显示建模
为2d cnn嵌入模块 MFNet、TEI Net、TEA
STM 提出了一种用于建模时间和运动信息的快
GSM利用群空间们控控制时空分解的相互作用

2.3 SENet

SENet 想法在二维CNN嵌入挤压激励块
SE以挤压和非挤压的方式利用两个FC，应用Sigmod激活基本通道特征没有考虑到关键信息（时间属性）
TEA 引入了ME（运动激励）和MTA（多重时间聚合）捕捉短期和长期时间金华
本文提出了超越SE的STE和CE，解决了时空视角和时间维度上的相互依赖
将STE、CE和ME以并行的方式组合成动作模块，激活视频中多种信息

Design of ACTION

符号解释：

N–batch size
T–number of segments
C–channels
H–height
W–width
r-- channel reduce radio
本文中，除了ACTION模型之外，所有的张量都是4维。
在输入ACTION之前，我们首先要把输入的4D张量重塑为5D张量（N,T,C,H,W）
然后，5D输出在被送入下一个2d卷积模块之前再被重塑为4D

3.1Spatio-Temporal Excitation (STE)

SET是一种利用三维卷积来激发时空信息的有效方法，如图2（a）。

SET通过生成一个时空掩码 $M∈R^{[N,T,1,H,W]}$ 用于跨所有通道对输入 $X∈R^{[N,T,C,H,W]}$ 进行逐元素相乘。
如图2(a):

input： $X∈R^{[N,T,C,H,W]}$
对输入张量沿tchannels进行水平池化得到一个全局时空张量 $F∈R^{[N,T,1,H,W]}$
对F进行Reshape $F∈R^{[N,1,T,H,W]}$
将F输入到一个3×3×3的卷积层K中，可表示为：
然后将 $F^*_o$ 重构为 $F_o∈R^{[N,T,1,H,W]}$
通过激活函数Sigmod 得到 $M∈R^{[N,T,1,H,W]}$
最终输出可以解释为：

3.2Channel Excitation (CE)

CE的结构和图2 （b）所示的SE结构相似，CE和SE的区别是在两个FC层之间插入了一个一维卷积层来表征信道特征的时间信息。

给定输入： $X∈R^{[N,T,C,H,W]}$
空间平均池化获取输入特征的空间信息，得到张量 $F∈R^{[N,T,C,1,1]}$
用压缩通道比r（r=16）来压缩F的通道数，表示为：
$K_1$ 是一个1×1的卷积核， $F_r∈R^{[N,T,C/r,1,1]}$
然后将 $F_r$ 重构为 $F^*_r∈R^{[N,C/r,T,1,1]}$
再使用内核大小为3的1维卷积核 $K_2$ 来处理 $F^*_r$
得到 $F^*_{temp}∈R^{[N,C/r,T,1,1]}$ ，reshape得到 $F_{temp}∈R^{[N,T,C/r，1,1]}$
再通过一个1×1的2D的卷积核 $K_3$ ，并使用激活函数Sigmod激活，公式如下：
最后CE的输出公式和STE的输出公式相同

3.3Motion Excitation (ME)

ME的目的是基于特征级而不是像素级建模运动信息，本文将ME与前两节提到的两个模块来并行的使用。
具体结构如图2（c）：

使用1×1的卷积核，采用与CE相同的压缩与解压缩策略。
运动特征按照如下操作进行：
K是3×3的二维卷积层， $F_{m}∈R^{[N,1,C/r,H,W]}$ ，
对 $F_m$ 根据时间维度运动特征进行拼接，并将0填充到最后一个元素
得到 $F_{M}∈R^{[N,T,C/r,H,W]}$
接着按照和前两个模块相似的操作，得到 $M∈R^{[N,T,C,1,1]}$

3.4 ACTION-Net

在这里插入图片描述
整体模块如上图所示，Resnet-50的ACTION-Net架构，不需要对块中的原始组件进行修改。

猜你喜欢

转载自blog.csdn.net/qq_37747189/article/details/115138521

[论文笔记]ACTION-Net

论文笔记之ACTION-Net: Multipath Excitation for Action Recognition

行为识别 - ACTION-Net: Multipath Excitation for Action Recognition

《Action recognition by dense trajectories》论文笔记

【论文笔记，action recognition,动作识别】

Compressed Video Action Recognition论文笔记

ZF Net 论文笔记

SPP-Net 论文笔记

SSP-Net 论文笔记

IoU-Net论文笔记

Deformable Convolution Net论文笔记

【论文笔记】ABC-Net

【论文笔记】DOREFA-NET

Corner-Net 论文笔记

RFB-Net论文笔记

U-net论文笔记

SPP-net论文笔记

论文笔记MEMC-Net TPAMI

SST:Single-Stream Temporal Action Proposals论文笔记

论文笔记 | A Closer Look at Spatiotemporal Convolutions for Action Recognition

论文笔记（四）：Temporal Action Localization by Structured Maximal Sums

论文笔记【A Comprehensive Study of Deep Video Action Recognition】

【论文笔记】STDC Net 论文阅读笔记

SPP-Net（Spatial Pyramid Pooling Network）论文笔记

High-Resoultion Net(HRNet) 论文笔记

图像去雨DRD-Net论文笔记

论文笔记——I^2R-Net

【论文笔记】ZFNet论文笔记

Kalman论文笔记

论文笔记

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)