计算机视觉研究领域文字识别的具体介绍和基本流程

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/duozhishidai/article/details/84980282

文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。

OCR技术的兴起便是从印刷体识别开始的,印刷体识别的成功为后来手写体的发展奠定了坚实的基础。文字识别的主要流程大致分为以下几个部分:图像预处理、版面处理、图像切分、特征提取和模型训练、识别后处理。

图像预处理

输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。

版面处理

版面处理分为三个主要部分,版面分析、版面理解、版面重构。

版面分析将文本图像分割为不同部分,并标定各部分属性,如:文本、图像、表格。目前在版面分析方面的工作核心思想都是基于连通域分析法,后衍生出的基于神经网络的版面分析法等也都是以连通域为基础进行的。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点,若包围其的所有像素点中存在相同像素值的像素点则视为两点连通,以此类推,这样的像素点构成的一个集合在图像中所在的区域即一个连通域。根据连通域大小或像素点分布等特征可以将连通域的属性标记出来,用作进一步处理的依据。

图像切分

图像切分大致可以分为两个主要类别,行(列)切分和字切分。经过切分处理后,才能方便对单个文字进行识别处理。

特征提取与模型训练

特征提取与模型训练在深度学习广泛应用于图像识别领域之前,模板匹配是较为常见的一种识别方式,之后由于神经网络的复苏,基于反馈的神经网络给OCR领域带来了又一春。现在随着计算机硬件计算能力的提升,利用大批数据训练深度神经网络在图像识别方面取得了傲人的成绩。

特征提取是从单个字符图像上提取统计特征或结构特征的过程。特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程。

识别后处理

识别校正是在识别结果基础上根据语种的语言模型进行,当然在单文种识别中相对容易一些,而在多语种则较为复杂。


1.深度学习与计算机视觉的具体介绍

http://www.duozhishidai.com/article-15924-1.html

2.机器人视觉系统分为哪几种,主要包括哪些关键技术?

http://www.duozhishidai.com/article-1753-1.html

3.图像识别经历了哪几个阶段,主要应用在哪些领域?

http://www.duozhishidai.com/article-6461-1.html

猜你喜欢

转载自blog.csdn.net/duozhishidai/article/details/84980282
今日推荐