论文解读|[CVPR2021]Progressive Contour Regression for Arbitrary-Shape Scene Text Detection

动机

作者认为现在的解决文本检测的方法都是自下而上的建模方式，都是基于像素级、小组件，因此会对噪声比较敏感，且依赖于复杂的启发式后处理操作。

网络框架

网络处理步骤

1. 特征提取：图片送入“特征提取和增强”模块（CNN+FPN）拿到多层次融合的特征图 $F_{e}$ ，步长为4；

2. 水平建议生成模块：生成“水平文本框”。用“中心点热图”和“大小热图”预测水平文本框的中心点和大小；

3. 定向文本建议生成模块：对上一步生成的“水平文本框”的角点进行回归，生成定向文本框（倾斜的文本框）；

4. 任意形状文本轮廓生成网络：对上一步生成的“定向文本框”进行细化，生成任意形状的文本框。

水平文本建议生成模块

通过两个卷积模块对 $F_{e}$ 进行卷积得到中心热图(center heatmap)和大小热图(size heatmap)。

定向文本建议生成模块

主要作用：对“水平边界框”的角点进行回归，生成“定向文本框”。

1. 沿着“水平边界框”的边界均匀采样 $N_{0}=64$ 个点 X。（训练时用的是 ground-truth 的水平文本框，测试时预测框）；

2. 使用 CLM(轮廓定位机制)来估计这些采样点（X）的新位置。

3. 角点生成模块将每个文本框的角点计算为： $X^{'}[i * \left \lfloor \frac{N_{0}}{N_{c}} \right \rfloor]$ 。 $N_{c}=4$ 表示角点的数量。

CLM

1. CLM 中有一个 CFE(轮廓特征提取器)，根据采样点X( $x_{i}$ )从特征图 $F_{e}$ 中获取采样点的特征 $F^{sem}\in R^{N_{0}\times D_{e}}$ ， $D_{e}=64$ 。（ $F^{sem}$ 叫做语义特征）

2. 考虑轮廓点的位置信息 $F^{loc}\in R^{N_{0}\times 2}$ ：计算为： $F^{loc}_{i}=X_{i}-X_{min}$ 。 $X_{min}$ 表示轮廓点的最左上角坐标。

3. $F^{sem}$ + $F^{loc}$ 生成 原始轮廓特征 $F_{c}\in R^{N_{0}\times (D_{e}+2)}$ 。

4. 轮廓上有一些点时多余的，因此， $F_{c}$ 输入到 CIA 做一些特征强化，生成更具代表性的边界框特征 $F_{cia}\in R^{N_{0}\times D}$ 。

5. $F_{cia}\in R^{N_{0}\times D}$ 送入 OPH（偏移预测头）生成角点的偏移量 $O\in R^{N_{0}\times 2}$ 。OPH 由3个 1x1 卷积组成，前两层有 Relu，滤波器数量分别为256，64，2。

6. 新的角点 ${X}'=X+O$

注意：CLM 中的OPH 用来预测点的偏移，输入的是角点预测的就是角点的偏移，输入的是轮廓点预测的就是轮廓点的偏移。

CIA

$\widetilde{R}_{u}\in \mathbb{R}^{N\times (N_{g}+1)}$

主要作用：由 $F_{c}$ 得到 $F_{cia}$ ，丰富轮廓的特征表示。

流程：特征 $F_{c}$ 一次走 9x9 的 CirConv(输出128维，有128个滤波器)--Relu--BN 和 7个CIA Unit(三种不同的空洞率：1，2，4。输出维度为 $N\times D_{u}$ ， $D_{u}=128$ ，N是点的数量，即 $N_{0}$ )，然后将四组特征进行 cat 得到特征 C，之后走一个 1x1 conv 和 maxpool 得到特征 P，最后特征 C 和 P 做一个 feature distributed 即可得到 $F_{cia}$ 。

CIA Unit

输入到 CIA Unit 的特征 $F_{u}$ 被扩张循环卷积沿着闭合轮廓的点的循环行编码：生成特征 $F^{a}_{u}\in R^{N\times D_{u}}$ 、 $F^{b}_{u}\in R^{N\times D_{u}}$ 、 $F^{c}_{u}\in R^{N\times D_{u}}$ 。N是轮廓点数量， $D_{u}$ 表示特征维度。

对于轮廓特征 $F^{b}_{u}$ ，由于轮廓点的冗余性和噪声，我们只使用 $N_{g}$ 局部汇聚节点来收集沿着轮廓的的信息。轮廓的全局上下文，也可以看作是一个全局语义汇聚节点。 $F^{b}_{u}$ 与局部汇聚节点的特征联级，形成聚合特征 $F^{bg}_{u}\in R^{(N_{g}+1)\times D_{u}}$