TextBoxes与TextBoxes++算法详解

这是两篇文章，因为这两篇文章大部分是相同的所以写一块了。

TextBoxes

《TextBoxes: A Fast Text Detector with a Single Deep Neural Network
》发表于AAAI2017
github地址：https://github.com/MhLiao/TextBoxes

这篇文章是借鉴SSD的网络用于文字检测，创新也不是太大。还有一点要清楚的是作者设计该网络的时候是将该网络作为word-based这一类来做的，就是说该算法设计初衷是针对词分割的，这里说的词应该是对于英文来说的。

一、网络结构

网络结构如下图所示，该网络结构就是将SSD中的全连接去掉换成卷积，并且为了适应文字检测的任务（考虑到文字的长宽比不同于物体，可能长宽比较大）使用1*5的卷积核代替3*3的卷积核。还有default boxes的比例也不同于SSD，采用1、2、3、5、7、10几种。得到的default boxes后使用SSD一样的回归方式回归出可能的结果。
在这里插入图片描述

还有一个不同于SSD的地方，因为文中采用了不一样尺寸的default boxes，这些尺寸都是细长形的，这样可能导致default boxes在水平方向密集在垂直方向上稀疏，从而导致检测不准确。为了解决上述问题，文中给每个default box加上垂直偏移，如下图所示。下图中为了便于观看只显示了宽高比为1和5的default box，其余比例的box以此类推。图中黑色框（宽高比为5的框）和蓝色框（宽高比为1的框）是中心在cell中心的default box，绿色（宽高比为5的框）和红色（宽高比为1的框）的框中心位于cell中心加上cell一半高的位置。
在这里插入图片描述

二、损失函数的定义

文章中的损失函数与SSD的损失函数一样，定义如下：
$L(x,c,l,g)=\frac{1}{N}(L_{conf}(x,c)+\alpha L_{loc}(x,l,g))$
其中， $x$ 表示匹配指示矩阵（match indication matrix），对于第i个default box和第j个ground truth，如果二者匹配则 $x_{ij}=1$ 反之亦然，c表示预测的置信度，l表示预测的位置，g表示真实的位置。 $\alpha$ 这里为1，N为与ground truth匹配的default boxes的总数， $L_{loc}$ 为L1 loss， $L_{conf}$ 为2值得softmax分类。

文章还有加了CRNN组成的end to end等等实验，可以观看原文。

TextBoxes++

《TextBoxes++: A Single-Shot Oriented Scene Text
Detector》发表于AAAI2018
github地址：https://github.com/MhLiao/TextBoxes_plusplus

从名字就可以看出，该文章是上面TextBoxes的一个扩展，扩展在TextBoxes只可以检测水平文本，而TextBoxes++可以检测多角度的文本，但该方法也是基于SSD结构且是针对词来检测的（word-based）。

一、网络结构

不同于TextBoxes，为了更好的对多角度文本进行检测，文章做了三个改动，一是改了default box的宽高比，使用1、2、3、5、1/2、1/3、1/5;二是将1*5的卷积核改为3*5用来生成text box layers，三是网络的输出不同（这点会在ground truth中介绍）。框架与TextBoxes是一样的，如下图所示。
在这里插入图片描述

类似于TextBoxes，因为使用的是细长形的default boxes，这样可能导致default boxes在水平方向密集在垂直方向上稀疏，从而导致检测不准确。为了解决上述问题，文中给每个default box加上垂直偏移，如下图所示。
在这里插入图片描述

二、网络的输出及ground truth的表示

网络输出
网络的输出是为了适应多角度的文本而相对于SSD和TextBoxes做了一些更改。网络输出一系列的多角度文本框使用{q}或者{r}集合表示，同时输出对应与多角度文本框的最小外界水平矩形框使用{b}集合表示。

多角度文本框是通过default box回归得到的，如下图表示，图中绿色虚线表示与ground truth匹配的default box，黄色框表示ground truth，红色箭头表示回归的方向，黑色框表示未匹配到真值的default box，绿色实线框表示对应与ground truth的最小外界水平矩形框。
在这里插入图片描述

default box可以用公式表示为 $b_{0}=(x_{0}, y_{0}, w_{0}, h_{0})$ ，回归出来的多角度文本框有两种表示方式，一种是使用四个点表示 $q_{0}=(x^{q}_{01},y^{q}_{01},x^{q}_{02},y^{q}_{02},x^{q}_{03},y^{q}_{03},x^{q}_{04},y^{q}_{04})$ ，另一种是使用四边形的左上点、右上点和旋转矩形的高表示 $r_{0}=(x^{r}_{01},y^{r}_{01},x^{r}_{02},y^{r}_{02},h^{r}_{0})$ ，其中 $(x_{0}, y_{0})$ 表示default box的中心点， $w_{0}$ 和 $h_{0}$ 表示default box的宽和高。上述各个参数间的关系如下列公式表示：
$x^{q}_{01}=x_{0}-w_{0}/2,y^{q}_{01}=y_{0}-h_{0}/2,$
$x^{q}_{02}=x_{0}+w_{0}/2,y^{q}_{02}=y_{0}-h_{0}/2,$
$x^{q}_{03}=x_{0}+w_{0}/2,y^{q}_{03}=y_{0}+h_{0}/2,$
$x^{q}_{04}=x_{0}-w_{0}/2,y^{q}_{04}=y_{0}+h_{0}/2,$
$x^{r}_{01}=x_{0}-w_{0}/2,y^{r}_{01}=y_{0}-h_{0}/2,$
$x^{r}_{02}=x_{0}+w_{0}/2,y^{r}_{02}=y_{0}-h_{0}/2,$
$h^{r}_{0}=h_{0}.$

与SSD做法一样，不是直接输出文本检测框的坐标而是输出回归的信息。
对于使用四点坐标表示文本框的表示方法来说，网络输出的是 $(\Delta x,\Delta y,\Delta w,\Delta h,\Delta x_{1},\Delta y_{1},\Delta x_{2},\Delta y_{2},\Delta x_{3},\Delta y_{3},\Delta x_{4},\Delta y_{4},c)$ ，最终输出的水平矩形 $b=(x,y,w,h)$ 和文本框 $q=(x^{q}_{1},y^{q}_{1},x^{q}_{2},y^{q}_{2},x^{q}_{3},y^{q}_{3},x^{q}_{4},y^{q}_{4})$ 计算方式如下所示，c表示置信度：
$x=x_{0}+w_{0}\Delta x,$
$y=y_{0}+h_{0}\Delta y,$
$w=w_{0}exp(\Delta w),$
$h=h_{0}exp(\Delta h),$
$x^{q}_{n}=x^{q}_{0n}+w_{0}\Delta x^{q}_{n},n=1,2,3,4$
$y^{q}_{n}=y^{q}_{0n}+h_{0}\Delta y^{q}_{n},n=1,2,3,4$

上面是对于输出检测文本框使用四点坐标表示的，如果采用的是第二种方式表示（旋转矩形），则网络输出为 $(\Delta x,\Delta y,\Delta w,\Delta h,\Delta x_{1},\Delta y_{1},\Delta x_{2},\Delta y_{2},\Delta h^{r},c)$ ，对于最终输出 $r=(x^{r}_{1},y^{r}_{1},x^{r}_{2},y^{r}_{2},h^{r})$ 计算方法为：
$x^{r}_{n}=x^{r}_{0n}+w_{0}\Delta x^{r}_{n},n=1,2$
$y^{r}_{n}=y^{r}_{0n}+h_{0}\Delta y^{r}_{n},n=1,2$
$h^{r}=h^{r}_{0}exp(\Delta h_{r}).$

ground truth的表示

a) 对于采用四点坐标表示的文本框

水平框的ground truth就是标定框的外界水平矩形，且该矩形的四个点是顺时针排列的，第一个点为矩形的左上角点

文本框的ground truth就是标定的框，但是规定文本框的四个点也为顺时针排列，第一个点为左上角点，这里左上角点的定义为将文本框与水平框的四个点按照顺时针方向计算四点的距离和（这里需要计算四次）。当距离和最小的那次，与水平框左上角点对于的点为文本框的第一个点。

b)对于采用两个点和一个高来表示的文本框（旋转矩形）

水平框获得方法同a)

文本框的获得，先按照a)中的方式确定出文本框的左上和右上点，高为旋转矩形的高

三、损失函数的定义

损失函数同TextBoxes

TextBoxes++还有一些数据增强的方法和其他实验，详细可以查看原文

中文本定位与识别的评测方法

欢迎加入OCR交流群：785515057