0. 前言
- 相关资料:
- 论文基本信息
- 领域:行为识别
- 作者单位:都柏林圣三一大学(爱尔兰的……)&字节
- 发表时间:CVPR 2021
- 一句话总结:设计了一个小模块(用于提取时空、channel、motion特征),与TSM相同的形式嵌入TSN中。
1. 要解决什么问题
- 当前行为识别模型的问题:
- 2D模型速度快性能低。
- 3D模型性能高速度慢。
- 行为识别模型中的主要新报包括三个方面
- spatial-temporal
- channel-wise
- motion patterns
- 吐个槽,这个ACTION缩写真是硬凑啊……不过凑出来就是牛逼
- spAtio-temporal, Channel and moTion excitatION (ACTION)
2. 用了什么方法
-
提出了ACTION结构,分为三个部分,分别提取三种特征
- Spatial-temporal Excitation (STE)分支
- Channel Excitation(CE)分支
- Motion Excitation(ME)分支
-
STE
- 其实就是引入了3D卷积,因为使用得少,所以对速度影响较少。
- 整体来看,还是一个SE结构。
- CE:其实就是在channel那层做了一次1D卷积,整体是个SE结构
- ME
- 类似帧差法,前一帧与后一阵相关。先在temporal纬度展开,分别进行2D卷积,然后将结构concat。
- 这结构绝对在以前的哪篇论文里见过类似的。
- 不过一看到这种就头皮发麻,速度可能快不起来。不过没试过,也不一定。
- ACTION如何放入网络结构中(本质就是tsm中的shift操作的位置)
- 对于R50结构,就是在每个residual block的非skip分支中添加
- mobilenetv2和bninception同理……
- 。。。。。。。这个好,完美复用TSM源码……
3. 效果如何
- 没提高太多计算量,提高了准确率
- 重点比较了something-something-v2
- 比较模型需要计算量,都是稍微增加了一些FLOPs,都不多。
4. 还存在什么问题&可借鉴之处
- 本模型没有在Kinetics上训练,只在EgoGesture/Something-something-v2/jester上测试了。
- 猜测大概率是在Kineics上效果不好,毕竟如果效果好,放上应该是加分项。
- 小概率是没卡…
- PS:最近也在尝试一些东西,8卡V100跑一次Kinetics训练跑2-3天,结果发现效果不行,心态有点爆炸。
- 另外,该模型说是“没提高多少计算量,但性能提高了一些”
- 我现在对所有没有测试 inference time,只测了参数量和FLOPs的都要先打个问号。
- 实现应该比较简单,也开源了,倒是可以自己测一下latency。