Backbone - Involution: Inverting the Inherence of Convolution for Visual Recognition

0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:卷积基本结构
    • 作者单位:港科技&字节
    • 发表时间:CVPR 2021 Oral
  • 一句话总结:设计了一种“内卷”的卷积结构替代普通卷积,卷积核是通过特征图算出来的

1. 要解决什么问题

  • 卷积操作有两个固有特点
    • spatial-agnostic:同一个卷积核到图像的哪个位置都能用,换句话说,所有位置都使用同一个卷积核
      • 存在的问题:限制了卷积核提取特征的的能力(其实每个位置应该通过不同的方式提取特征,且特征提取范围也不应该局限于感受域)
    • channel-specific:每个channel都提取不同类型的特征(这个比较玄学)
      • 存在的问题:数据冗余
  • 上面的 agnostic 和 specific 可以理解为互为反义词
    • 在本文语境中,我个人觉得,agnostic 可理解为“通用”,specific 可理解为“特定”

2. 用了什么方法

  • 提出的Involution结构与普通卷积完全相反
    • spatial-specific:即空间上每个位置卷积操作对应的卷积核是不同的
    • channel-agnostic:每个channel对应的卷积核是相同的

image-20210312121518136

  • 相关伪代码如下
    • 重点在于 nn.Unfold,其实就是滑框操作,获取每个位置的卷积输入

image-20210312121537383

3. 效果如何

  • 图像分类、分割、检测上的准确率都提升了

image-20210312121707018

image-20210312121742205

  • 相比于性能差不多的普通卷积神经网络,GPU速度些许提升,CPU的推理速度大幅提升

image-20210312121657499

4. 还存在什么问题&可借鉴之处

  • 这个应该可以直接作为TSN的输入了吧,可能改改TSM也能用,还是通过mmcls实现的,实现起来应该不难。

猜你喜欢

转载自blog.csdn.net/irving512/article/details/114692828