爬虫之tesseract+tesserocr的安装

刚刚学到验证码的识别,需要安装tesserorc利用OCR技术(光学字符识别)来进行验证码识别,在此过程遇到许多问题,现在来总结总结。

安装环境:windows10+Python3+anaconda3

1. tesseract的安装

tesserorc是python的一个OCR识别库,不过他是对tesseract做的一层python API封装,核心还是tesseract,所以要调用python的tesserocr库是,得先安装tesseract

1.1 tesseract的下载

下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载页面如图所示
在这里插入图片描述
其中带有dev的为开发版本,不带dev的是稳定版,这里我下的是不带dev的3.05.02的版本,选择好版本之后就进行下载。

1.2 安装tesseract

tesseract的安装比较简单,只需要改一下安装路径,当然你也可以选择默认路径,还有就是安装到下面步骤后,可以勾选**Additional…**这项,勾选它就可以进行多国的语言识别了。
在这里插入图片描述
1.3 将tesseract的路径添加到环境变量中

步骤:电脑->属性->高级系统设置->环境变量->系统变量->双击Path,然后将tesseract的安装路径添加进去,如图。
在这里插入图片描述
记得要用英文的”;“与前面隔开,到此tesseract的安装就结束了。接下来安装tesserocr。

2. tesserocr的安装

我发现按照崔大大书上的步骤来安装tesserorc是行不通的,安装了几回都行不通,最后参照网上的方法成功安装了,具体步骤如下。

2.1 下载tesserocr whl文件

下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases, 找到对应的版本进行下载

2.2 安装tesserocr

管理员身份打开cmd窗口,然后用pip进行安装,如下
在这里插入图片描述
其中红色框起来的是你tesserocr whl文件的位置,到此tesserocr也安装完了,接下来进行测试,看看看是否已成功安装。

3. 测试安装

书上的那个image图片我去访问的时候出错了,于是我自己用画图了个进行验证,如下。

import tesserocr
from PIL import Image
image = Image.open('1ac.png')
print(tesserocr.image_to_text(image))

但是发现报如下错误,说的是API调用失败,可能在D盘的Anconda文件下没找到tessdata文件
在这里插入图片描述
不慌,这时我们只需将之前安装的tesseract文件里的tessdata文件,复制到anaconda安装的目录下即可,如下。
在这里插入图片描述
在这里插入图片描述
这时我们再去测试就不会报错了,如图。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_44690947/article/details/106906849