OCR----你不得不知的Tesseract六大重要核心

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guzhenping/article/details/51035077

Abstract


整理了很多OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,所以算是论文导读吧。PS:Smith是一个专注OCR领域30年的男人~~太可怕了!

这篇文章的重点是在文本行的查找,特征/分类的方法,以及自适应分类器。此外,文章中介绍了Tesseract发展历史,我就略过了,只谈技术相关。


1. Architecture


先谈Page Layout Analysis技术,它在OCR领域是个很重要的部分,因为算是文字识别的准备工作。但是,早期的Tesseract没有这项技术,因为HP实验室开发了独立的Page Layout Analysis technology。所以在后期的Tesseract就加入了这项技术。

没记错,就是Tesseract 3.x系列,但是工作没有完成。Smith是基于制表位探测技术做的页面分析。据Smith说下面在做页面中table的检测,我猜快做完了吧….

这篇论文里的(旧)Tesseract假设:其数据源是已定义的可选多边形文本域的二进制图片。

Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined.

再谈处理过程。分两步:
(1)connected component analysis,然后得到Blobs.
(2)从Blobs中得到文本行,然后得到固定比例的(fixed pitch)或者成比例的(proportional)文本。

最后谈识别过程。分两步:
(1)通过一个一个地识别单词训练自适应分类器(adaptive classifier),classifer将得到更高的几率能正确识别单词。
(2)识别整个页面。


2. Line and Word Finding


概括来说,先找文本行(lines),再找基线(baseline),然后将单词(word)切割成字符(character)。

细细来讲三点:

  • 找文本行所用的算法参见:《A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation》,written by Ray Smith。
  • baseline使用的二次样条曲线(quadratic spline),参考资料:《Optical Character Recognition: An Illustrated Guide to the Frontier》,written by S.V. Rice。
  • 通过固定间距检测(fixed pitch detection),把单词切成字符。对于没有固定间隔的文本,即成比例单词(proportional word),采用计算baseline和mean line之间的空隙垂直范围。


致歉


这篇博文在我的草稿箱放了太久,不公布出来就是浪费。但是,目前的内容非常对不起文章标题。按照题目,我还会写:

  • 3 Word Recognition
  • 4 Static Character Classifier
  • 5 Linguistic Analysis
  • 6 Adaptive Classifier

如果这篇博文反响还不错,我将继续下去。Sorry~Everyone~


结语


我还健康的活着,有问题欢迎交流!这里在大牛面前,班门弄斧,实在不好意思哈~欢迎指正!

有问题可以在我的微信公众号“谷震平的专栏”提出,当天答复。欢迎,扫描下方二维码,回复“Tesseract”,即可得到《An Overview of the Tesseract OCR Engine》(我个人进行了注释、翻译)的阅读链接。

谷震平的专栏

猜你喜欢

转载自blog.csdn.net/guzhenping/article/details/51035077
今日推荐