联机与脱机手写汉字识别

1. 知识了解

1.1 汉字识别的两类主流方法

Online recognition：联机识别，基于笔画轨迹
Offline recognition：脱机识别，基于图像
（联机手写汉字识别所处理的手写文字是书写者通过物理设备 (如数字笔、数字手写板或者触摸屏) 在线书写获取的文字信号, 书写的轨迹通过定时采样即时输入到计算机中. 而脱机手写文字识别所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图片。）

1.2 样本——来源于同一个人的书写

a:online character samples
b:offline character samples
联机识别能得到笔画的顺序、点的坐标等动态信息 ,而脱机识别则无法得到这些动态信息，
这也导致在同种方法下，一般来说脱机识别的准确率小于联机识别。
也就是说脱机手写文字识别比联机手写文字识别更加困难

在这里插入图片描述

1.3 后文方法所用的数据库

训练数据库来源于CASIA
测试数据库来源于ICDAR竞赛

在这里插入图片描述
1.4 传统的手写中文单字识别系统（主要有三部分）

数据预处理：样本归一化、平滑去噪、整形变换、伪样本生成、添加虚拟笔画(对联机数据)等。
特征提取：结构特征，主要对汉字结构、笔画或部件进行分析来提取统计特征，例如方向特征，对脱机HCCR而言,Gabor特征及Gradient 特征是目前比较好的两种方向特征提取方法。对联机 HCCR 而言,8方向特征是目前最有效的特征之一。
分类识别：最常用的模型包括改进的二次判决函数(MQDF)、支持向量机(SVM)、隐马尔科夫模型(HMM)、鉴别学习二次判决函数(DLQDF) 和学习矢量量化(LVQ)等。
注：对手写字符而言, 目前最好的特征基本上都是统计特征

2. 脱机手写汉字识别

2.1 脱机手写识别——方法比较

在这里插入图片描述

脱机方法的比较:传统的方法与人工识别有较大的差距。通过三场比赛（图中红框部分），识别准确率逐渐提高。。第八行的方法首次超越了人类识别的准确率。而且通过对10个模型的集成，精度进一步提高到96.74%(第10行)。富士通团队通过使用适当的样本生成(局部和全局失真)、多监督训练和多模型集成进一步改进了他们的系统：单个网络(第11行)的准确率达到96.58%，5个网络的综合，准确率提高到96.79%(第12行)，是除论文方法外脱机HCCR最好的结果。

2.2 Gabor-GoogLeNet

19层网络
利用Gabor进行特征提取，获取8个方向的Gabor特征图；
将8个Gabor特征映射添加到输入层和原始图像中，从而构造N×N×9的输入层阵列(N×N表示输入图像的尺寸，此处取120)
模型特点是使用了inception结构
inception结构组成:1×1， 3×3 ，5×5卷积，以及5×5的max pooling；这个结构很好地利用了网络中的计算资源，并且在不增加计算负载的情况下，增加网络的宽度和深度。

CNN-Voting-5

在这里插入图片描述

首先将原始图像进行变形

局部变形：结合三维（X，Y，Z）随机变形技术进行大规模的数据生成，除文字模式图像上的 X 坐标、Y 坐标外，将各像素的灰度值作为 Z 坐标的参数，生成各种变形模式
全局变形：首先在一定范围内随机生成一个仿射变换，然后将该变换应用于原图像生成新的样本。

投放进CNN模型
投票，选出结果
投票策略（1）在模型的输出中，如果某个类的投票比其他类多，那么这个类就是最终结果
（2）如果排名靠前的类拥有相同的票数，那么这些类的置信度就会被加起来，置信度最高的类就是最终的结果

3. 联机手写汉字识别

3.1 联机手写体识别样本

图：脱机手写汉字。每种颜色代表一个笔画，数字代表书写顺序。

在这里插入图片描述

3.2 联机手写体识别——方法比较

方法中较优的几种方法，以及论文(2018年)方法之间的比较。

人工识别
传统方法
神经网络

在这里插入图片描述

3.3 传统方法——DFE+DLQDF

DFE：鉴别特征提取方法 (Discriminative feature learning
DLQDF：鉴别学习二次判决函数 (Discriminative learning quadratic discriminant function）
获取directMaps，8×32×32的张量
通常在每一张图上,提取8*8个点，特征维数为512
通过Gaussian Blurring来减小笔触位置变化的影响
Box–Cox transformation进行特征转换，目的在于增加数据的高斯性
传统的方法也遵循了深度神经网络的设计思想

高斯模糊可以看作是一个卷积模板，这是预先定义的，而不是从数据中学习。
虽然Box-Cox变换不同于神经网络中广泛使用的激活，但它是一种非线性激活。
然后，有一个完全连接的层和一个分类层。

3.4 传统方法与深度学习

在这里插入图片描述

扫描二维码关注公众号，回复： 4799165 查看本文章

深度学习与传统方法相比，特征提取和分类都可以在深度学习模型中自动完成。
深度学习模型可以看作是一个黑盒子，只需要输入图像就可以得到识别结果。相比之下，传统的分类方法通常需要人工特征设计和分类器的人工调优。

3.5 神经网络——PRCNN，VO-3

UWarwick(PRCNN):
(1) 字符以三维数组的形式进行编码
(2) 将数组输入12层卷积神经网络
(3)网络结构：150C3-MP2-300C2-MP2-450C2-MP2-600C2-MP2-750C2-MP2-900N-3755N.
(4) 训练数据集：CASIA OLHWDB1.0-1.2
VO-3:
(1) 基于MyScript技术
(2)采用b-spline近似法对输入笔画进行规范化，提取动态和静态信息相结合的特征
(3) 将特征向量输入一个简单的多层感知器
(4) 训练数据集：CASIA-OLHWDB1.0-1.1

3.6 深度学习——directMap-ConvNet

预处理：

形状规范化：伪2D双矩归一化（pseudo 2D bi-moment normalization ， P2DBMN ）
方向分解：将局部笔画方向(由两个相邻点构成的线段)分解成8个方向，然后生成每个方向的feature map
为笔触增加0.5的权重
生成directmaps

模型

总共11层网络
特点在于加入了adaptation 层

在这里插入图片描述

3.7 深度学习RNN

预处理
(1)移除多余的点
(2)坐标标准化

Tcos, Tdist 为两个超参数。

在这里插入图片描述

预处理之后，96个点减少为44个点且（0，0）坐标对应的是字符中心。
这将使每个点更有信息，有利于RNN建模。

RNN模型

均值化层
全连接层
结合LSTM/GRU
全连接层和均值化层均采用dropout策略
结合LSTM/GRU，实验结果表明GRU优于LSTM,针对论文设计的神经网络来说。

在这里插入图片描述

集成策略
（1）在只有一个子序列的情况下，该算法的准确率低于全序列。
（2）随着集合中随机采样的子序列越来越多，分类准确率逐渐提高
集成策略结论
（1）一个子序列低于全序列是因为有信息丢失
（2）结果验证了使用drop进行基于集合的序列分类的有效性。
（3）论文将这6种学习算法组合得到最优结果

在这里插入图片描述

3.8 方法比较： DirectMap + convNet(CNN)， RNN

在这里插入图片描述

总结

近几年，基于传统的 “预处理+特征提取+分类器” 的手写汉字识别框架似乎并没有特别大的研究新进展, 很少看到在识别性能上获得突破性进展的研究报道。但是, 随着深度学习的兴起，我们注意到深度学习对手写汉字识别难题带来了新的活力和极其有效的解决方法。特别是2011 年起，连续两届的 ICDAR 手写汉字识别比赛的获胜者都是采用基于深度学习或神经网络的方法。在 2013 年的 ICDAR 手写汉字比赛中，来自富士通公司的团队采用改进的 CNN 网络，获得了脱机手写汉字识别的第一名，识别率达 94.77 %；而来自英国华威大学的 Graham 利用深度稀疏卷积神经网络的方法，获得了联机手写汉字识别第一名，其识别率提升到 97.39 %。而在前文提到的最新的文章中，其方法更是使得脱机识别率达97.37%，而联机识别率高达98.15%。无论是联机还是脱机 HCCR，基于深度学习的方法所取得的结果，均大幅度领先传统的方法，显示出深度学习的强大潜力。目前手写识别中，深度学习方法相比于传统方法，能达到更高的识别率，但是其训练和测试时间较长，字典存储偏大等问题，仍待进一步研究改进。

参考文献

[1] Paliwal, M.S.A.K., Bidirectional Recurrent Neural Networks. IEEE TRANSACTIONS ON SIGNAL PROCESSING, 1997: p. 2673–2681.
[2] Fei Yin, Q.W.X.Z., ICDAR 2013 Chinese Handwriting Recognition Competition. 2013 12th International Conference on Document Analysis and Recognition, 2013: p. 1464–1470.
[3] Liu, C., et al., Online and offline handwritten Chinese character recognition: Benchmarking on new databases. Pattern Recognition, 2013. 46(1): p. 155-162.
[4] C. Wu, W.F.Y.H., Handwritten Character Recognition by Alternately Trained Relaxation Convolutional Neural Network. 2014 14th International Conference on Frontiers in Handwriting Recognition, 2014: p. 291-296.
[5] Salakhutdinov, N.S.G.H., Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research, 2014.
[6] Zhuoyao Zhong, L.J.Z.X., High Performance Offline Handwritten Chinese Character Recognition Using GoogLeNet and Directional Feature Maps. ICDAR, 2015: p. 846-850.
[7] L. Chen, S. Wang, W. Fan, J. Sun and S. Naoi, “Beyond human recognition: A CNN-based framework for handwritten character recognition,” 2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR), Kuala Lumpur, 2015, p. 695-699.
[8] Xu-Yao Zhang, Y.B.C.L., Online and Offline Handwritten Chinese Character Recognition: A Comprehensive Study and New Benchmark. Pattern Recognition, 2017: p. 348–360.
[9] Zhang, X., et al., Drawing and Recognizing Chinese Characters with Recurrent Neural Network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. 40(4): p. 849-862.