OCR(Optical Character Recignition) 光学字符识别

文本检测 + 文本识别

传统OCR

图像预处理；版面处理；图像切分；特征提取、匹配及模型训练；识别后处理

预处理：灰度化、二值化、倾斜检测与矫正，平滑、规范化
版面处理：版面分析、版面理解、版面重构
图像切分：行（列）切分和字切分
特征提取与模型训练：特征提取及匹配、模型训练
识别后处理：版面恢复和识别矫正

文本检测：

SWT(Stroke Width Transform) 笔画宽度变化

MSER(Robust wide-baseline stereo from maximally stable extremal regions) 最大稳定极值区域

对文字形状变化（文字模糊、笔画粘连、断笔、黑白不均、油墨反透）的适应性和抗干扰性比较差

深度OCR

简单说一下为什么通用目标检测不太适合文本检测（也是可以用的）：

目标检测

候选区域、特征提取、分类、位置精修

RCNN

一整图像生成1K~2K个候选区域（Selective Search）
对每个候选区域，使用深度网络提取特征
特征送入每一类的SVM分类器，判别是否属于该类
使用回归器精细修正候选框位置

Fast-RCNN

整张图归一化后直接送入深度网络
在ROI Pooling层才输入候选框
然后再进行分类和回归

Faster-RCNN

区域生成网络 + Fast-RCNN （使用区域生成网络代替 Fast-RCNN中的 Selective Search 方法）

在这里插入图片描述

基础网络做特征提取
特征送入RPN做候选框提取
分类层对候选框内物体进行分类，回归层对候选框的坐标进行精细调整

文本特点：

使用通用目标检测方法做文本检测效果不好，因为文本有自己独有的特点，这种通用的文本检测并不能很好的解决文本的这些特点：

文本大多数以长矩形形式存在，与普通的目标检测中的物体不一样（长宽比接近于1）
普通物体存在明显的闭合边缘轮廓，而文本没有
文本中包含多个文字，而文字之间是有间隔的，如果检测做的不好，我们就会把每个字都当成文本行给框出来而非整行作为文本框，这与我们的期望不一样

基于以上文本检测的特点，必须对Faster-RCNN这类通用网络进行改进，设计出适合文本检测全新架构。

文本检测

1. CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）

在这里插入图片描述

考虑到文本框以长矩形存在，首先检测文本的一小部分，判断是不是文本的一部分，然后将同一个文本框的小文本框合并，得到一个完整的、大的文本框。
考虑到文本都是连续字符，连续的上下文本信息很重要，所以使用了RNN（BLSTM）来进一步提升效果。还有就是如果仅仅根据一个文本框的信息预测该框内含不含有文字是很草率的，如果参考这个框的左边和右边的信息后，也就是使用RNN将左右信息利用起来，会大大提升预测的准确率。
对 y 轴中心和高度的偏移进行回归（宽度固定为16，高度在 11-283之间）
使用边缘细化方法精修边缘
将各部分进行文本行构建

在这里插入图片描述

缺点：对于非水平文本的检测效果不好，比如弯曲文本、多向文本（垂直文本）。

2. SegLink（Detecting Oriented Text in Natural Images by link Segments）

与CTPN思想类似，都是先找出文本行的一部分，然后再连接所有的部分，组成一个完整的文本行；
在SSD基础上加入了旋转角度的学习；
在小部分文本框之前用连接线（相邻框的中点连线）来表示属不属于同一个文本框，也是用网络来学习；
使用融合规则将各个阶段的框信息和线信息进行融合，组成文本行。

在这里插入图片描述

缺点：不能检测间隔很大的文本行，不能检测弯曲文本

3. EAST（EAST: An Efficient and Accurate Scene Text Detector）

把完整文本行先分割检测再合并的思路，做法比较麻烦，把文本检测切割成多阶段来进行，增大了文本检测精度的损失和时间消耗，中间处理影响效果。（候选框选取，候选框过滤，bbox回归，候选框合并）

通过FCN结构的网络直接学习是不是文本框以及文本框的坐标和角度（或者八个坐标）；
局部感知NMS（先合并再NMS），降低了NMS的复杂度。
精度和速度都有所提高

在这里插入图片描述

缺点：感受野不大，对于长文本检测不是很好，比较适合短文本行检测

AdvancedEAST：score map -> 文本头部、中部和尾部三部分，没有从根本上解决长文本检测。

4. PSENet（Shape Robust Text Detection with Progressive Scale Expansion Network）

bbox回归的方法对弯曲文本的检测不准确，分割的方法对文字紧靠的情况分割效果不好。

亮点：渐进式扩展算法

是一个基于像素分割的方法，能够精确地定位任意形状的文本实例；
提出了渐进式扩展算法，即使两个文本实例离得很近也可以分开，从而保证文本实例的准确位置

从最小尺度的kernels开始扩展，最小的kernels可以把紧靠的文本实例分开；逐渐扩展到更大的kernels；直到扩展到最大的kernels，组成最终的结果。

在这里插入图片描述

缺点：对于不同的数据集，超参数的选取较为重要（最小尺度比例和分割结果数）。

5. LSAE（Learning Shape-Aware Embedding for Scene Text Detection）

亮点：嵌入形状感知

分离紧靠的文本实例
解决文本行过长的问题

在这里插入图片描述

使用输出的三个结果做聚类。

6. ATRR（Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation）

使用LSTM网络学习应该使用多少个点来表示文本框。

类似于Faster-RCNN，增加了基于自适应文本表示的LSTM分支。

在这里插入图片描述

7. CRAFT（Character Region Awareness for Text Detection）

通过精确的定位每一个字符，然后再把检测到的字符连接成一个文本。

生成两部分GT，字符框 + 亲和框（同一文本框中的相邻字符），使用高斯热图
字符感知方法，只需要很小的感受野就可以了处理长的弯曲文本

缺点：对粘连字符的检测效果不好；对标注数据的要求高；使用弱监督学习生成伪GT造成的损失；训练复杂，需要先进行弱监督训练得到字符级标注框，再训练网络。

8. LOMO（Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes）

LOMO由直接回归器（DR），迭代优化模块（IRM）和形状表示模块（SEM）组成。

首先，DR分支生成四边形形式的文本建议框。接下来，IRM基于提取的初步建议功能块，通过迭代细化逐步感知整个长文本。最后，通过考虑文本实例的几何属性（包括文本区域，文本中心线和边界偏移），引入了SEM来重构不规则文本的更精确表示。

在这里插入图片描述

9. PAN（Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network）

有低计算成本的分割部分和可学习的后处理。分割分割部分由特征金字塔增强模块（FPEM）和特征融合模块（FFM）组成。 FPEM是可级联的U形模块，可以引入多级信息来指导更好的分割。 FFM可以将不同深度的FPEM提供的特征收集到最终特征中进行分割。可学习的后处理是通过像素聚合（PA）实施的，该算法可以通过预测的相似度矢量精确地聚合文本像素。

通过分割网络预测文本区域，内核和相似度向量。FPEM + FFM
从预测的内核重建完整的文本实例。

在这里插入图片描述

10. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

通过语义分割可以直接从二维空间实现检测和识别。

Spatial Attention Module（SAM）

Mask TextSpotter 的识别模型对于处理二维空间中的常规文本和不规则文本更通用，并且同时考虑本地和全局文本信息会更有效
不同于之前的方法只能处理水平或者旋转文本，本文方法可以处理任意形状的文本
Mask TextSpotter 是第一个完全可端到端训练以进行文本发现的框架，它具有简单，平滑的训练方案，因此其检测模型和识别模型可充分受益于特征共享和联合优化。

在这里插入图片描述

11. Learning to Predict More Accurate Text Instances for Scene Text Detection

为检测弯曲文本，提出与起始顶点无关的坐标回归，提出文本实例精度损失作为辅助任务来细化预测坐标。

基于回归+像素
在这里插入图片描述

12. DB（Real-time Scene Text Detection with Differentiable Binarization）

速度很快！

传统的基于分割的文本检测的后处理方法比较复杂，提出的差分二值化不仅可以简化后处理还可以增强文本检测的性能。

在这里插入图片描述

13. SBD（Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection）

SBD首先将四边形边框离散为几个关键边缘，其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置，提出了一种简单而有效的匹配程序来重构四边形边界框。

基本思想是利用与标签序列无关的不变表示形式（例如，最小x，最小y，最大x，最大y，平均中心点和对角线的相交点）来反推边界框坐标。为了简化参数化，SBD首先查找所有包含顶点的离散水平和垂直边。然后学习序列标记匹配类型以找出最佳拟合的四边形。摆脱了训练目标的模糊性。

在这里插入图片描述
检测水平和旋转矩形，不能检测多边形以及任意形状的文本。

14. ABCNet（Real-time Scene Text Spotting with Adaptive Bezier-Curve Network）

使用参数化的 Bezier 曲线 自适应的拟合任意形状的文本
在这里插入图片描述

15. SR-Deeptext（Scale robust deep oriented-text detection network）

对文本尺度的变化就有鲁棒性，并且可以减轻类别不平衡。

在EAST基础上做的改动，主干网络使用 ResNet50，不适用多尺度而是在网络中嵌入了上采样层，避免了高计算复杂度。还增加了细化模块 refining block，包含残差卷积单元（RCU）和链式残差池（CRP），以通过使用远程残差连接来改善预测。

在这里插入图片描述

总结

论文题目	模型	方法	时间	检测文本类别	备注
Tian et al.[1]	CTPN	回归	ECCV 2016	水平文本
Liao et al. [8]	TextBoxes	回归	CVPR 2017	水平文本
Shi et al.[2]	SegLink	回归	CVPR 2017	水平+弯曲文本
Zhou et al.[3]	EAST	回归	CVPR 2017	水平+旋转文本
Liao et al. [9]	TextBoxes++	回归	IEEE 2018	水平+旋转文本
Zhu et al. [10]	SLPR	回归	arXiv 2018	水平+弯曲+不规则文本
Lyu et al. [11]		回归+分割	CVPR 2018	水平+旋转文本
Liao et al. [12]	RRD	回归	CVPR 2018	水平+旋转文本
Yang et al. [13]	IncepText	回归+分割	IJCAI 2018	水平+旋转文本
Yue et al. [14]	Guided CNN	回归+分割	BMVC 2018
Liu et al. [15]	MCN	分割	CVPR 2018	水平+旋转文本
Long et al. [16]	TextSnake	回归	ECCV 2018	水平+弯曲+不规则文本
Chu et al. [17]	Border	回归	ECCV 2018	水平+旋转文本
Wang et al.[20]	ITN	回归	CVPR 2018	水平+旋转文本
Zhao et al. [24]	Elite Loss	分割	2018	水平+旋转文本
Liu et al.[22]	CSE	回归	CVPR 2019	水平+弯曲+不规则文本
Wang et al.[4]	PSENet	分割	CVPR 2019	水平+弯曲+不规则文本
Tian et al.[5]	LSAE	分割	CVPR 2019	水平+弯曲+不规则文本
Wang et al.[6]	ATRR	回归	CVPR 2019	水平+弯曲+不规则文本
Zhang et al. [26]	LOMO	回归+分割	CVPR 2019	水平+弯曲+不规则文本
Baek et al.[7]	CRAFT	分割	CVPR 2019	水平+弯曲+不规则文本
Wang et al.[18]	PAN	分割	ICCV 2019	水平+弯曲+不规则文本
Liao et al. [27]	MaskTextSpotte	分割	TPAMI2019	水平+弯曲+不规则文本	检测+识别
Liao et al. [23]	DBNet	分割	AAAI 2019	水平+弯曲+不规则文本
Liu et al. [19]	SBD	回归	arXiv 2019	水平+旋转文本
Zheng et al. [21]	SR-Deeptext	分割	PR 2019	水平+旋转文本
Liu et al. [25]	ABCNet	回归	CVPR 2020	水平+旋转+不规则文本	检测+识别
Zhang et al.[28]	DRRG		CVPR 2020	水平+旋转+不规则文本
Wang et al.[29]	ContourNet		CVPR2020	水平+旋转+不规则文本

[1] Tian Z, Huang W, He T, et al. Detecting text in natural image with connectionist text proposal network. European conference on computer vision(ECCV), 2016: 56-72

[2] Shi B, Bai X, Belongie S. Detecting Oriented Text in Natural Images by Linking Segments. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 3482-3490

[3] Zhou X, Yao C, Wen H, et al. EAST: an efficient and accurate scene text detector. CVPR, 2017: 2642-2651.

[4] Wenhai W, Enze X, et al. Shape Robust Text Detection with Progressive Scale Expansion Network. In CVPR 2019.

[5] Zhuotao Tian, Michelle Shu, et al, Learning Shape-Aware Embedding for Scene Text Detection. In CVPR, 2019.

[6] Xiaobing Wang, Yingying Jiang, et al, Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation. In CVPR, 2019.

[7] Youngmin Baek, Bado Lee, et al. Character Region Awareness for Text Detection. In CVPR 2019.

[8] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network. AAAI. 2017: 4161-4167.

[9] Liao M, Shi B , Bai X. TextBoxes++: A Single-Shot Oriented Scene Text Detector. IEEE Transactions on Image Processing, 2018, 27(8):3676-3690.

[10] Zhu Y, Du J. Sliding Line Point Regression for Shape Robust Scene Text Detection. arXiv preprint arXiv:1801.09969, 2018.

[11] Pengyuan Lyu, Cong Yao, Wenhao Wu et al. Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation. In CVPR 2018.

[12] Minghui L, Zhen Z, Baoguang S. Rotation-Sensitive Regression for Oriented Scene Text Detection. In CVPR 2018.

[13] Qiangpeng Yang, Mengli Cheng et al. IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection. In IJCAI 2018.

[14] Xiaoyu Yue et al. Boosting up Scene Text Detectors with Guided CNN. In BMVC 2018.

[15] Zichuan Liu, Guosheng Lin, Sheng Yang et al. Learning Markov Clustering Networks for Scene Text Detection. In CVPR 2018.

[16] Long, Shangbang and Ruan, Jiaqiang, et al. TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes. In ECCV, 2018.

[17] Chuhui Xue et al. Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping. In ECCV 2018.

[18] Wenhai Wang et al. Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV 2019

[19] Yuliang Liu et al. Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection

[20] Fangfang Wang et al. Geometry-Aware Scene Text Detection with Instance Transformation Network. In CVPR 2018

[21] Yuqiang Zheng,Yuan Xie,Yanyun Qu,Xiaodong Yang,Cuihua Li,Yan Zhang. Scale robust deep oriented-text detection network[J]. Pattern Recognition,2019

[22] Zichuan Liu et al. Towards Robust Curve Text Detection with Conditional Spatial Expansion. In CVPR2019

[23] Minghui Liao et al. Real-time Scene Text Detection with Differentiable Binarization. In AAAI2020

[24] Xu Zhao et al. Elite Loss for scene text detection. Neurocomputing 333: 284-291 (2019)

[25] YuLiang Liu et al. ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network. In Proc. IEEE Conf. Comp. Vis. Pattern Recogn. (CVPR) 2020

[26] Chengqian Zhang et al. Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes. CVPR 2019: 10552-10561

[27] Minghui Liao et al. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes. TPAMI 2019

[28] Shi-Xue Zhang et al. Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection. CVPR 2020

[29]Yuxin Wang et al. ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection. CVPR 2020

参考资料：

传统OCR

目标检测

2017文本检测

2018文本检测

文本检测

文本检测综述

传统OCR

深度OCR

目标检测

文本检测

1. CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）

2. SegLink（Detecting Oriented Text in Natural Images by link Segments）

3. EAST（EAST: An Efficient and Accurate Scene Text Detector）

4. PSENet（Shape Robust Text Detection with Progressive Scale Expansion Network）

5. LSAE（Learning Shape-Aware Embedding for Scene Text Detection）

6. ATRR（Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation）

7. CRAFT（Character Region Awareness for Text Detection）

8. LOMO（Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes）

9. PAN（Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network）

10. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

11. Learning to Predict More Accurate Text Instances for Scene Text Detection

12. DB（Real-time Scene Text Detection with Differentiable Binarization）

13. SBD（Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection）

14. ABCNet（Real-time Scene Text Spotting with Adaptive Bezier-Curve Network）

15. SR-Deeptext（Scale robust deep oriented-text detection network）

总结

猜你喜欢