【python】win10下tesserocr库的安装过程详解

tesserocr是OCR识别库,通过扫描字符,将其形状翻译成文本。实质是tesseract的封装,用于识别各种各样的验证码。

tesserocr库的安装步骤如下:

【第一步】先下载tesseract

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

//本人下载的是tesseract-ocr-setup-3.05.01-20170602.exe,在安装的过程中注意勾选Additional language data(download)选项,这样OCR即可识别多国语言。

注意:千万要留意一下tesseract的安装目录,下一步中要配置该路径。语言数据包的安装时间较长,请多点耐心。

【第二步】配置Tesseract-OCR

将tesseract-ocr的安装路径配置到系统环境变量Path中 :

“高级系统设置” --> “环境变量”-->在系统变量中找到“Path”-->“编辑”-->“新建”-->将安装路径加进去-->“确定”

例如:博主本人的安装路径是E:\SETUPPLACE\Tesseract\Tesseract-OCR,下图为本人示例。

扫描二维码关注公众号,回复: 9060923 查看本文章

【第三步】配置tessdata数据文件

将Tesseract-OCR文件夹中的tessdata文件夹如上类似操作配置入环境变量,并以TESSDATA_PREFIX命名变量保存。

例如:博主本人的tessdata文件目录为E:\SETUPPLACE\Tesseract\Tesseract-OCR\tessdata

【第四步】 验证tesseract是否配置成功

$ tesseract --version
//在命令行中执行后,如果没有报错,返回版本信息即为配置成功。

【第五步】确定python版本

$ python --version
//博主本人的返回结果是Python 3.7.2

【第六步】根据个人的python版本与系统版本确定tesserocr的whl安装包

tesserocr的whl安装包下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

注意:由于博主是64位的系统,python版本为3.7所以选择了下图中红色框中的版本

【第七步】使用pip安装whl文件

//whl文件下载到本地后,使用命令行进入whl文件所在目录进行安装
//例如:保存位置在桌面
$ cd C:\Users\Administrator\Desktop
$ pip3 install tesserocr-2.4.0-cp37-cp37m-win_amd64.whl

//如果没有报错,即为安装成功。

【第八步】简单示例使用

import tesserocr
from PIL import Image
image = Image.open('image1.png')
result = tesserocr.image_to_text(image)
print(result)

如图,成功返回Python3

发布了23 篇原创文章 · 获赞 3 · 访问量 2236

猜你喜欢

转载自blog.csdn.net/weixin_44322399/article/details/104238742