论文:Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution
1. Motivation
- (a)动机来源:自然图像可以分解为描述平稳变化结构的低空间频率分量和描述快速变化精细细节的高空间频率分量。
- (b):作者认为卷积层的输出特征映射也可以分解为不同空间频率的特征并提出了一种新的多频特征表示方法,将高频和低频特征映射存储到不同的组中。
- (c):提出的多频特征表示方法将平滑变化的低频映射存储在低分辨率张量中,以减少空间冗余。
- OctConv的优点:节省内存,减小计算量;对低频信息的处理能够扩大感受野(特征图减小,卷积核尺寸不变)。
2. 模型结构
-
总体思路:
-
a. 输入高频信息X(H)和低频信息X(L)
-
b
对于高频信息X(H):1. information update:X(H)经过卷积得到Y(H->H),
2. information exchange:X(H)经过平均池化和卷积得到Y(H->L)对于低频信息X(L):1. information update:X(L)经过卷积得到Y(L->L),
2. information exchange:X(L)经过卷积和上采样得到Y(L->H) -
c. 分别对高频信息和低频信息汇总:Y(H) = Y(H->H) + Y(L->H) ;Y(L) = Y(H->L) + Y(L->L).
作者在文中引入α 这个参数来控制通道数,特别提到在第一个和最后一个OctConv处α参数的设置。代入图中可知:第一层是将特征图分为高频和低频两组,最后一层是将高频和低频组合起来得到新的特征图。