Abstract

整理了很多OCR的资料，这篇主要是对Tesseract重要的知识进行总结罗列。本次总结，基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》，所以算是论文导读吧。PS：Smith是一个专注OCR领域30年的男人~~太可怕了！

这篇文章的重点是在文本行的查找，特征/分类的方法，以及自适应分类器。此外，文章中介绍了Tesseract发展历史，我就略过了，只谈技术相关。

1. Architecture

先谈Page Layout Analysis技术，它在OCR领域是个很重要的部分，因为算是文字识别的准备工作。但是，早期的Tesseract没有这项技术，因为HP实验室开发了独立的Page Layout Analysis technology。所以在后期的Tesseract就加入了这项技术。

没记错，就是Tesseract 3.x系列，但是工作没有完成。Smith是基于制表位探测技术做的页面分析。据Smith说下面在做页面中table的检测，我猜快做完了吧….

这篇论文里的（旧）Tesseract假设：其数据源是已定义的可选多边形文本域的二进制图片。

Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined.

再谈处理过程。分两步：
（1）connected component analysis，然后得到Blobs.
（2）从Blobs中得到文本行，然后得到固定比例的(fixed pitch)或者成比例的(proportional)文本。

最后谈识别过程。分两步：
（1）通过一个一个地识别单词训练自适应分类器（adaptive classifier），classifer将得到更高的几率能正确识别单词。
（2）识别整个页面。

2. Line and Word Finding

概括来说，先找文本行（lines）,再找基线（baseline），然后将单词（word）切割成字符（character）。

细细来讲三点：

找文本行所用的算法参见：《A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation》,written by Ray Smith。
baseline使用的二次样条曲线（quadratic spline），参考资料：《Optical Character Recognition: An Illustrated Guide to the Frontier》,written by S.V. Rice。
通过固定间距检测（fixed pitch detection），把单词切成字符。对于没有固定间隔的文本，即成比例单词（proportional word），采用计算baseline和mean line之间的空隙垂直范围。

致歉

这篇博文在我的草稿箱放了太久，不公布出来就是浪费。但是，目前的内容非常对不起文章标题。按照题目，我还会写：

3 Word Recognition
4 Static Character Classifier
5 Linguistic Analysis
6 Adaptive Classifier

如果这篇博文反响还不错，我将继续下去。Sorry~Everyone~

结语

我还健康的活着，有问题欢迎交流！这里在大牛面前，班门弄斧，实在不好意思哈~欢迎指正！

有问题可以在我的微信公众号“谷震平的专栏”提出，当天答复。欢迎，扫描下方二维码，回复“Tesseract”，即可得到《An Overview of the Tesseract OCR Engine》（我个人进行了注释、翻译）的阅读链接。

谷震平的专栏

OCR----你不得不知的Tesseract六大重要核心

Abstract

1. Architecture

2. Line and Word Finding

致歉

结语

猜你喜欢