Tesseract-OCR的配置和应用

1,百度搜索Tesseract-OCR下载   Tesseract-orc-setup-3.02.02.exe   。要记得自己的安装目录(博主的安装路径为:C:\Program Files(x86)\Tesseract-OCR),等会配置环境变量要用。

如果不是做英文的图文识别,还需要下载其他语言的识别包  其他语言各版本的识别包下载  ,如简体字识别包对应的是chi_sim.traineddata ,繁体字识别包对应的是chi_tra.traineddata 。

还有其他的安装包下载地址:

稳定版:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.01.exe

开发版:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2,我安装的是开发版

这里可以展开选择自己喜欢的语言包,由于我处理的是旧报纸系列,所以繁体字、简体字最好都有,顺便把英文的也留下叭

选择安装位置

开始菜单名称(目前不知道是用来干嘛的)

报错了,如下



解决方法

https://blog.csdn.net/qq_41897154/article/details/109499741

发现一个大佬的建议,先留着地址https://github.com/PaddlePaddle/PaddleOCR

看到一个字库制作的,感觉有点厉害

https://www.cnblogs.com/wangkevin5626/p/9640165.html

猜你喜欢

转载自blog.csdn.net/qq_41897154/article/details/109496728