Deformable ConvNet 论文学习笔记

原论文：《J. Dai et al., Deformable Convolutional Networks[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017, pp. 764-773.》
代码：https://github.com/msracver/Deformable-ConvNets

论文将固定形状的卷积过程改造成了 能适应物体形状 的可变的卷积过程，从而提升了特征提取模块对物体形变的适应能力。

它对感受野上的每一个点加一个偏移量，而调整后的感受野不再是个正方形，而是与物体的实际形状相匹配。通过这种方式，无论物体怎么形变，卷积的区域始终都会覆盖在物体形状的周围。

论文中主要介绍了两个模块：可形变卷积(Deformable Convolution) 与 可形变RoI池化(Deformable RoI Pooling)。

1. Deformable卷积

1.1 结构图

在这里插入图片描述

使用一个卷积神经网络提取特征图上每个像素点的 偏移量，然后根据偏移量对特征图上每个像素点的位置坐标进行调整，再将调整之后的结果进行加权。
对于 $\times H \times N$ 的特征图，这个卷积结构得到的特征为： $\times H \times 2N$ 。其中，2 代表在宽与高两个方向上的偏移。

1.2 计算公式

$\begin{aligned}\\ y(\pmb{p}_0)&=\sum_{\pmb{p}_n\in \mathcal{R}}\pmb{w}(\pmb{p}_n)\cdot \pmb{\hat{x}}(\pmb{p}_0+\pmb{p}_n+\Delta\pmb{p}_n)\\ &=\sum_{\pmb{p}_n\in \mathcal{R}}\pmb{w}(\pmb{p}_n)\cdot \sum_{\pmb{q}}G(\pmb{q},\pmb{p}_0+\pmb{p}_n+\Delta\pmb{p}_n)\cdot \pmb{x}(\pmb{q})\\ \end{aligned}$
其中， $\pmb{p}$ 与 $\pmb{q}$ 是特征图上像素点的坐标； $\Delta \pmb{p}_n$ 是 $\pmb{p}_n$ 的偏移量； $\pmb{w}(\pmb{p}_n)$ 是 $\pmb{p}_n$ 对应的权重； $G(\pmb{q},\pmb{p})$ 是双线性差值公式：
$\begin{aligned}\\ G(\pmb{q},\pmb{p})&=g(q_x,p_x) \cdot g(q_y,q_y)\\ &=max(0,1-|q_x,p_x|) \cdot max(0,1-|q_y,p_y|)\\ \end{aligned}$

2. Deformable RoI池化

RoI 池化用于将任意尺寸的矩形区域转换为一个固定尺寸的区域。
对于一个特征图 $\pmb{x}$ ，记其左上角位置为 $\pmb{p}_0$ ，经过 RoI 池化后将得到一个 $\times k$ 的特征图 $\pmb{y}$ ：
$y(i,j)=\sum_{\pmb{p}\in bin(i,j)}\pmb{x}(\pmb{p}_0+\pmb{p})/n_{ij}$

此式表明：RoI 需要将 $\pmb{x}$ 划分为 $k\times k$ 个 bin，再在每个 bin 上取均值。 $n_{ij}$ 表示每个bin上的像素点的数量。

2.1 结构图

在这里插入图片描述

利用一般的 RoI 对一个特征层进行池化；

使用全连接网络对上面的结果进行处理，得到归一化的偏移量 $\Delta \hat{\pmb{p}}_{ij}$ ；

在每个元素上进行计算： $\Delta \pmb{p}=0.1\Delta \hat{\pmb{p}}_{ij}\circ(w,h)$ （其实就是将归一化的量在实际尺寸上进行放缩）；

根据得到的 $\pmb{p}$ 对特征层进行调整。

2.2 计算公式

$\begin{aligned}\\ y(i,j)&=\sum_{\pmb{p}\in bin(i,j)}\pmb{\hat{x}}(\pmb{p}_0+\pmb{p}+\Delta \pmb{p}_{ij})/n_{ij}\\ &=\sum_{\pmb{p}\in bin(i,j)}\sum_{q} G(\pmb{q},\pmb{p}_0+\pmb{p}_n+\Delta\pmb{p}_n) \cdot \pmb{x}(\pmb{q})/n_{ij}\\ \end{aligned}$

3. 使用方法

直接替换候选骨干网络中某个卷积层及 RoI 池化层。

参考材料

Deformable Convolutional Networks解读