在玩tesseract时，发现如下报错：

这个是因为Tesseract-OCR的版本和chi_sim.traindata字库版本不匹配，由于我的Tesseract-OCR是3.02.02，去google下载字库要FQ，CSDN要积分，在百度快要无望的情况下，发现了该网站http://www.xue51.com/soft/1594.html#xzdz，才得以解决字库的问题

然后把字库中的chi_sim.traineddata拷贝到Tesseract-OCR\tessdata目录下

在文件的保存位置打开cmd，运行tesseract test.jpg test -l chi_sim命令，就可以在当前位置生成一个叫test的文件

命令格式： tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]　

imagename为目标图片文件名，需加格式后缀；outputbase是转换结果文件名；lang是语言名称（在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata），如不标-l eng则默认为eng

后期有望通过训练来提高识别率

参考文章

https://www.cnblogs.com/congyinew/p/7694204.html

解决：actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file ..\..\ccutil\tessdatamanager.cp p, line 50

参考文章

猜你喜欢