python 爬虫 pytesseract 验证码识别:认识Tesseract

Tesseract-验证码识别

Tesseract是一个OCR库,他通过训练识别任何字体

安装

windows系统安装:

网址:

https://digi.bib.uni-mannheim.de/tesseract/

https://github.com/tesseract-ocr/

Linux安装

sudo apt install tesseract-orc

Mac安装

brew install tesseract

 

windows需要设置环境变量

  1. 需要把tesseract.exe 设置到path变量中
  2. 把训练的数据放到tessdata文件中,环境变量设置为TESSDATA_PREFIX=D:\tesseract\Tesseract-OCR\tessdata;

常用命令操作

查看帮助:tesseract –h

英文识别:tesseract a.png a 

中文识别:tesseract d.png d –l chi_sim

查看可用语言:tesseract –list-langs

猜你喜欢

转载自blog.csdn.net/qq_27648991/article/details/81461444