行为识别 - ACTION-Net: Multipath Excitation for Action Recognition

0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:都柏林圣三一大学(爱尔兰的……)&字节
    • 发表时间:CVPR 2021
  • 一句话总结:设计了一个小模块(用于提取时空、channel、motion特征),与TSM相同的形式嵌入TSN中。

1. 要解决什么问题

  • 当前行为识别模型的问题:
    • 2D模型速度快性能低。
    • 3D模型性能高速度慢。
  • 行为识别模型中的主要新报包括三个方面
    • spatial-temporal
    • channel-wise
    • motion patterns
  • 吐个槽,这个ACTION缩写真是硬凑啊……不过凑出来就是牛逼
    • spAtio-temporal, Channel and moTion excitatION (ACTION)

2. 用了什么方法

  • 提出了ACTION结构,分为三个部分,分别提取三种特征

    • Spatial-temporal Excitation (STE)分支
    • Channel Excitation(CE)分支
    • Motion Excitation(ME)分支
  • STE

    • 其实就是引入了3D卷积,因为使用得少,所以对速度影响较少。
    • 整体来看,还是一个SE结构。

image-20210315143950368

  • CE:其实就是在channel那层做了一次1D卷积,整体是个SE结构

image-20210315144000552

  • ME
    • 类似帧差法,前一帧与后一阵相关。先在temporal纬度展开,分别进行2D卷积,然后将结构concat。
    • 这结构绝对在以前的哪篇论文里见过类似的。
    • 不过一看到这种就头皮发麻,速度可能快不起来。不过没试过,也不一定。

image-20210315144010421

  • ACTION如何放入网络结构中(本质就是tsm中的shift操作的位置)
    • 对于R50结构,就是在每个residual block的非skip分支中添加
    • mobilenetv2和bninception同理……
      • 。。。。。。。这个好,完美复用TSM源码……

image-20210315143537773

3. 效果如何

  • 没提高太多计算量,提高了准确率

image-20210315144534542

  • 重点比较了something-something-v2

image-20210315144602060

  • 比较模型需要计算量,都是稍微增加了一些FLOPs,都不多。

image-20210315144701456

4. 还存在什么问题&可借鉴之处

  • 本模型没有在Kinetics上训练,只在EgoGesture/Something-something-v2/jester上测试了。
    • 猜测大概率是在Kineics上效果不好,毕竟如果效果好,放上应该是加分项。
    • 小概率是没卡…
      • PS:最近也在尝试一些东西,8卡V100跑一次Kinetics训练跑2-3天,结果发现效果不行,心态有点爆炸。
  • 另外,该模型说是“没提高多少计算量,但性能提高了一些”
    • 我现在对所有没有测试 inference time,只测了参数量和FLOPs的都要先打个问号。
  • 实现应该比较简单,也开源了,倒是可以自己测一下latency。

猜你喜欢

转载自blog.csdn.net/irving512/article/details/114833269