入門
単純な識別コードと画像の数については、我々はpytesseractと対応たTesseractエンジンを使用する必要があり、それはオープンソースのOCRエンジンです。私たちはいくつかの簡単な画像認識を行うヘルプ
もちろん、よりよい画像を識別するために、画像の画素の一部が比較的低い、我々は特定の階調処理を行います、画像認識便宜、参照https://www.jb51.net/article/141428.htm
画像認識処理では、我々は国境を閉鎖していない画像コンテンツを識別するために注意を払う必要があります
シングルナンバーのために我々はそうでない場合は、それらを識別していない、適切な処理パラメータを行う必要があります。
我々はgithubのから取得することができます。https://github.com/tesseract-ocr/tesseract/wiki、新バージョン4.0を今、ダウンロードURLをたTesseractエンジンを、対応するトレーニングデータ
まず、pytesseractとPILをインストール
PILフルネーム:パイソンイメージング図書館、複数のファイル形式をサポートしており、強力な画像処理とグラフィックス機能を提供するPythonの画像処理ライブラリ。
PILによるPILに基づいて枕のライブラリを作成しただけなので、最新のPython 3.xのサポートをPythonの2.7をサポートしています
1、ピップのコマンドをインストール
pytesseractをインストールするPIP
枕をインストールするPIP
2、インストールpycharmエディタは、次の手順を使用して。
インストールが成功しました:
pytesseractをインストールするときは、枕をインストールするので、我々は唯一の可能pytesseractをインストールする必要があります。
3.実行してみます、
ソースは以下のとおりです。
1 from PIL import Image 2 import pytesseract 3 4 Image = Image.open('1.png') # 打开图片 5 text = pytesseract.image_to_string(Image,lang='chi_sim') #使用简体中文解析图片 6 print(text)
出现报错,如下图,
原因:没有安装识别引擎tesseract-ocr
二、安装识别引擎tesseract-ocr
1.Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别,经过改进引擎和训练系统,它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符,但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言(比如中文)上较慢,但是工作良好。
下载链接: https://pan.baidu.com/s/1J0HNoVhX8WexS_5r0k2jDw 密码: ywc3
因为tesseract-ocr默认不支持中文识别。
将下载到的文件:chi_sim.traineddata 放到Tesseract-OCR安装目录 D:\Program Files (x86)\Tesseract-OCR\tessdata 下,如图:
2,安装完成tesseract-ocr后,需要做一下配置 。
在Python安装目录(如:D:\Python35\Lib\site-packages\pytesseract) 中修改 pytesseract.py文件。
也可以通过pycharm,Ctrl+B 快速打开pytesseract源码文件:
3.尝试运行,出现如下报错:
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
4.解决方法:将tessdata目录的上级目录所在路径:(默认为tesseract-ocr安装目录)添加至TESSDATA_PREFIX环境变量中,如下图:
注意:配置完环境变量需要重新打开pycharm编辑器(IDE)。
5.再次运行结果:图片识别成功!
但识别率不是很高,后期优化,持续更新。