Tesseract-OCR-03-图片文字识别 - 代码天地

Tesseract-OCR-03-图片文字识别

其他 2019-04-13 10:21:09 阅读次数: 0

本篇介绍使用 Tesseract-OCR 做图片文字识别，识别手写文字的时候，正确率能达到 90%，当训练后正确率是极高的。这里介绍的图片文字识别，可以识别英文，数字和中文等

Tesseract-OCR 图片文字识别

Tesseract：一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎
如果还没有安装 Tesseract-OCR 请参考：
- Windows下 Tesseract-OCR 的安装与环境变量配置
  https://blog.csdn.net/qq_40147863/article/details/82285920
当然配置环境也都下载上面那篇文章了，一步一图很详细

正题图片文字识别

我搜集了几个素材，懒得找可以直接下载：
https://pan.baidu.com/s/10XxYJa19KIa8-ENdQkhhHg
这里我是将图片放在了：D:\p
我们需要在 cmd 进入此目录
- 使用 cd 目录名进入目录
- 使用 cd.. 返回上一级目录
使用 Tesseract 命令：
tesseract 文件名保存的txt文件名 -l eng 例：

tesseract num1.jpg num1
这里 -l eng 是设置语言，不写的话，默认是 eng 也就是英语
结果：
注意：
- 1.这里如果报错 Tesseract 不是内部或外部命令，就是环境变量没有配置好参照：
  https://blog.csdn.net/qq_40147863/article/details/82285920
- 2.如果识别的图片文字是中文会提示，0个文字

识别手写英文

识别图片 eng2.jpg
输入命令：保存为 eng2.txt
我们对比一下结果：
这里是识别错了一个字母，把 ig 错误的识别成 S，包括上面那张数字也是错了一个
那也就是我们要努力的方向了

识别中文

这里识别中文只需要将 -l 参数改成 chi_sim 例如：
对有中文文字的图片 chi1.jpg ，进入图片路径，使用一下命令：

tesseract chi1.jpg chi1 -l chi_sim
图片样式：
执行命令：
运行结果：

识别英文和数字夹杂验证码

例如：
对图片 timg.jpg ，进入图片路径，使用一下命令：

tesseract timg.jpg timg
图片样式：
执行命令：
运行结果：

Tesseract 训练：

我们可以通过重复的训练，用更多的数据去训练，就可以达到更多高的识别正确率
我们使用 jTessBoxEditor 训练
由于 jTessBoxEditor 的安装和训练，内容比较多，我再整理一篇

更多文章链接：Tesseract 随笔

- 本笔记不允许任何个人和组织转载

猜你喜欢

转载自blog.csdn.net/qq_44906554/article/details/89278437

Tesseract-OCR-03-图片文字识别

图片文字OCR识别-tesseract-ocr

使用Tesseract对图片文字OCR识别

Tesseract-OCR-01-图片文字识别

java图片文字识别tesseract-ocr

Tesseract Ocr文字识别

图片文字识别开源工具Tesseract-ocr

如何使用tesseract-ocr4.0识别图片文字

图片文字识别：Tesseract OCR库在Python中基本使用

使用tesseract-ocr实现图片文字识别 docker版

tesseract-ocr+java实现图片文字识别

python + tesseract OCR 文字识别

tesseract 图片识别文字

vue中使用tesseract实现OCR/文字识别(识别图片中的文字)

图片识别文字， OCR

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

识别图片tesseract-ocr的配置

Java中使用tess4J（Tesseract-OCR）进行图片文字识别（支持中文）

Tesseract-OCR从入门到精通之windows环境实现图片文字识别

Python+pytesseract+Tesseract-OCR图片文字识别（只适合新手）

基于Eclipse下的 tesseract -OCR实现图片文字识别过程简单介绍

Python+Tesseract-OCR识别图片文字并保存到word文档

开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用

Java中使用tess4J（Tesseract-OCR）进行图片文字识别

OCR图片文字识别接口

NET 2.0 OCR文字识别技术（Tesseract 引擎）［转］

使用Tesseract-OCR训练文字识别记录

Mac OCR 图像文字识别调研（tesseract & baidu clound）

mac上文字识别(Tesseract-OCR for mac )

文字识别OCR开源框架的对比--Tesseract vs EasyOCR

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)