tesseract基本用法之识别图片文字 - 代码天地

tesseract基本用法之识别图片文字

其他 2018-07-15 13:15:35 阅读次数: 0

Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统，除了极高的精确度，Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体，也可以识别出任何 Unicode 字符。

安装Tesseract

Windows 系统

下载可执行安装文件：https://code.google.com/p/tesseract-ocr/downloads/list 安装。

Ubuntu Linux系统

可以通过 apt-get 安装: $sudo apt-get tesseract-ocr

Mac OS X系统

用 Homebrew可以很方便地安装： brew install tesseract

要使用 Tesseract 的功能，比如后面的示例中训练程序识别字母，要先在系统中设置一个新的环境变量 `$TESSDATA_PREFIX`，让 Tesseract 知道训练的数据文件存储在哪里，然后搞一份tessdata数据文件，放到Tesseract目录下。

在大多数 Linux 系统和 Mac OS X 系统上,你可以这么设置（假设Tesseract数据文件目录在/usr/local/share/下）: $export TESSDATA_PREFIX=/usr/local/share/Tesseract
在 Windows 系统上也类似,你可以通过下面这行命令设置环境变量: #setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract

安装pytesseract

Tesseract 是一个命令行工具，安装之后，要用 tesseract 命令在 Python 的外面运行，但我们可以通过 pip 安装支持 Python 版本的 Tesseract库：pytesseract

pip install pytesseract

先出一段代码：

先看一张图片:

import pytesseract
from PIL import Image

# image = Image.open("07test.jpg")
image = Image.open("排序算法.png")
result = pytesseract.image_to_string(image,lang='chi_sim')

print(result)

看结果：

效果还是可以的，大家可以玩一下

猜你喜欢

转载自blog.csdn.net/master_ning/article/details/80698873

tesseract基本用法之识别图片文字

tesseract 图片识别文字

图片文字识别：Tesseract OCR库在Python中基本使用

使用Tesseract对图片文字OCR识别

图片文字OCR识别-tesseract-ocr

Tesseract-OCR-01-图片文字识别

Tesseract-OCR-03-图片文字识别

tesseract识别图片中文字

Mac配置Tesseract图片识别文字

java图片文字识别tesseract-ocr

Tesseract-OCR从入门到精通之windows环境实现图片文字识别

Tesseract Ocr文字识别

Java调用 Tesseract 实现图片中文字识别

图片文字识别开源工具Tesseract-ocr

python 包的使用（二）——tesseract识别图片中的文字

如何使用tesseract-ocr4.0识别图片文字

使用tesseract-ocr实现图片文字识别 docker版

tesseract-ocr+java实现图片文字识别

Python Opencv实践 - 入门使用Tesseract识别图片中的文字

python tesseract图片识别

vue中使用tesseract实现OCR/文字识别(识别图片中的文字)

python + tesseract OCR 文字识别

Tesseract——文字识别新姿势

tesseract文字识别训练记录

python之图片文字识别

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

图片识别工具Tesseract与使用

Java中使用tess4J（Tesseract-OCR）进行图片文字识别（支持中文）

python tesseract识别图片文字第一次尝试中的问题记录qwq

Python+pytesseract+Tesseract-OCR图片文字识别（只适合新手）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)