最近看论文看到深度卷积的内容，然后就想着学习一下，发现论文中说的深度卷积并不是真正的深度卷积，感觉是分组卷积的一种，但是对于论文中得使用方式又有点不理解，就留下了一个问题放在了博客的最后，这里记录一下，方便以后查阅。

常规&非常规的卷及操作

常规卷积
分组卷积
大卷积核替换为多个堆叠的小核
Factorized Convolution
Depthwise Convolution
Pointwise Convolution
Depthwise Separable Convolution
Separable Convolution
膨胀卷积
转置卷积
问题
参考资料

常规卷积

下图以stride=1，padding=0，kernel_size=3为例，假设输入特征图大小是4x4的（假设输入输出都是单通道），通过卷积后得到的特征图大小为2x2。一般使用卷积的情况中，要么特征图变小（stride > 1），要么保持不变（stride = 1），当然也可以通过四周padding让特征图变大但没有意义。

在这里插入图片描述

常规卷积中，连接的上一层一般具有多个通道（这里假设为n个通道），因此在做卷积时，一个滤波器（filter）必须具有n个卷积核（kernel）来与之对应。一个滤波器完成一次卷积，实际上是多个卷积核与上一层对应通道的特征图进行卷积后，再进行相加，从而输出下一层的一个通道特征图。在下一层中，若需要得到多个通道的特征图（这里假设为m个通道），那么对应的滤波器就需要m个。

用通俗的话来概括卷积，他起到的作用就是两个：一个是对上一层的特征图进行尺寸调整，另一个是则是对上一层的特征图数量进行调整，也就是通道数的调整。

在这里插入图片描述

看了上面这张图突然发现跟我最近理解的有点出入，最近都把卷及操作想成了下面“组卷积”图中的左边的样子，也就是前面一列是输入通道，后面一列是这一层卷积的卷积核数量，但是今天研究“深度卷积”，看到了torch.nn.Conv2d的解释中的下面图片的内容，起初还有点不理解权重的第二维是啥，但是现在结合上面的图和下面的图的解释就很明白了。

也就是，卷积层的权重通常被表示为一个四维张量，其形状为 （输出通道数，输入通道数，卷积核高度，卷积核宽度）。

在这里插入图片描述

分组卷积

Group Convolution（AlexNet），对输入进行分组，卷积核数量不变，但输入channel数 $M$ 减少，相当于
$M→\frac{M}{G}$

在这里插入图片描述

大卷积核替换为多个堆叠的小核

大卷积核替换为多个堆叠的小核（VGG），比如 $5 \times 5$ 替换为2个 $3 \times 3$ ， $7 \times 7$ 替换为3个 $3 \times 3$ ，保持感受野不变的同时，减少参数量和计算量，相当于把大数乘积变成小数乘积之和
$(K \times K) \to (k \times k + \dots + k \times k)$
在这里插入图片描述

Factorized Convolution

Factorized Convolution（Inception V2），二维卷积变为行列分别卷积，先行卷积再列卷积
$(K \times K) \to (K \times 1 + 1 \times K)$
在这里插入图片描述

Depthwise Convolution

Depthwise Convolution其实就是分组卷积的分组数跟input_features的channel数一样的时候，然后一个卷积核负责一个通道，一个通道只被一个卷积核卷积（拿分组卷积中的例子来说的话，就是分为12组）。
在这里插入图片描述
Depthwise Convolution完成后的Feature map数量与输入层的通道数相同，无法扩展Feature map。而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的feature信息。因此需要Pointwise Convolution来将这些Feature map进行组合生成新的Feature map。

Pointwise Convolution

Pointwise Convolution中的kernel[K, N, 1, 1]，这里K的大小跟上一层的通道数是一致的，实现了深度方向的加权组合。

在这里插入图片描述

Depthwise Separable Convolution

Depthwise Separable Convolution（MobileNet V1），depthwise +BN ReLU + pointwise + BN ReLU，相当于将channel维单独分解出去，
$(K \times K \times N) \to (K \times K + N)$
在这里插入图片描述

Separable Convolution

Separable Convolution（Xception），pointwise + depthwise + BN ReLU，也相当于将channel维分解出去，但前后顺序不同（但因为是连续堆叠，其实跟基本Depthwise Separable Convolution等价），同时移除了两者间的ReLU
$(K \times K \times M) \to (M + K \times K)$
但实际在实现时还是depthwise + pointwise + ReLU