Tesseract-OCR入门使用(1)-安装包获取和命令行调用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012566751/article/details/54094692
本文简单介绍 Tesseract-OCR 3.x版本如何上手使用,只适用于入门级别。

目录
1.开源协议
2.安装包获取
3.运行Tesseract-OCR命令行
    3.1检测Tessseract-OCR是否安装成功
    3.2查看Tesseract-OCR支持语言
    3.3利用Tesseract-OCR识别

1.开源协议

Tesseract-OCR遵循Apache 2.0 license开源协议,因此可用于商业用途。不过使用前最好明确了解协议。


2.安装包获取
(1) Tesseract 3.05(目前更新至4.0)
    目前只有非官方安装包下载地址: Tesseract at UB Mannheim
(其中包含训练工具)

(2) Tesseract  3.02
    官方安装包下载地址: download
    因为只包含英文语言包,如果需要其他语言包下载地址: download the appropriate training data
    并将语言包解压至 tessdata目录。

3.运行Tesseract-OCR命令行
Tesseract-OCR 安装后包含一个命令行程序。

(以下操作基于)Tesseract3.02版本
3.1检测Tesseract-OCR 是否安装成功
(以下操作基于)Tesseract3.05版本
step1 : 进入cmd窗口
step2 : 录入 cd 【Tesseract-OCR安装目录】,进入 Tesseract-OCR安装目录
step3    : 录入 tesseract ,如果显示以下信息则安装成功

(以下操作基于)Tesseract3.02版本
step1 : 进入cmd窗口
step2    : 录入 tesseract 回车,如果显示以下信息则安装成功

3.2查看Tesseract-OCR支持语言
tesseract --list-langs

3.2利用Tesseract-OCR识别
  tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

test1:测试识别
tesseract D:\huilang\1.jpg D:\out
运行结果

test2:测试语言选择
tesseract D:\huilang\1.jpg D:\out -1eng
PS: [-l lang]实际使用中是不能由空格的,否则提示无法打开

test3:测试输出格式
tesseract D:\huilang\1.jpg D:\out -1eng pdf
确实生成PDF文件了,虽然不是我想要的:)

参考资料:
1.《 OCR----Tesseract 3.x架构及原理解析 》,作者思路明确值得一看
2.《 [译] 理解 LSTM 网络 http://www.jianshu.com/p/9dc9f41f0b29

猜你喜欢

转载自blog.csdn.net/u012566751/article/details/54094692