Во-первых, создать окружающую среду
Установка Тессеракт-OCR поставляется с идентификацией загрузки китайских иероглифов! Но в реальных условиях эксплуатации , чтобы определить , неэффективно,
для того , чтобы улучшить эффект узнавания и определяются в соответствии с требуемым содержанием обучения идентифицированного шрифтом!
Обучение шрифтов лучше всего осуществляется в директории установки Тессеракт-OCR.
1. Скачать Тессеракт-OCR двигатель: Используйте детали, пожалуйста , нажмите .
2, jTessBoxEditor Скачать: HTTPS: //www.softpedia.com/get/Multimedia/Graphic/Graphic-Others/jTessBoxEditor.shtml
https://github.com/tesseract-ocr/tesseract/wiki/AddOns
Или: HTTPS: / /dl.pconline.com.cn/download/1060986.html
3, скачать chi_sim.traindata шрифт. Китайцы должны признать. После того, как просто замечательно, поставить Тессеракт-OCR папку проекта tessdata внутри (можно установить).
Во-вторых, автоматическое обучение 3500 часто используемых китайских иероглифов с jTessBoxEditor
Первые шаги можно резюмировать следующим образом:
В-третьих, обучение шрифты
Первая тренировка готовы с эталонным изображением.
-
Тессеракт-OCR в папку каталога установочного компакт-диска Program Files \ Тессеракт-OCR
-
Open jTessBoxEditor, выберите Сервис -> Merge TIFF, диалоговое окно Открыть, выберите папку, в которой учебный образец, и выбрать все, чтобы принять участие в картине обучающей выборки, обратите внимание, диалоговое окно «Тип файла» выбрать формат PNG
-
Тогда есть диалоговое окно Открыть, введите «chi_my.font.exp0.tif», формат TIFF. Chi_my, который может быть изменен на собственное определение. Он генерирует chi_my.font.exp0.tif файл.
-
Генерация файла «chi_my.font.exp0.box», выполнить командную строку
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng batch.nochop makebox
-
Открыть jTessBoxEditor, нажмите Box Editor -> Открыть, выберите файл chi_my.font.exp0.tif.
-
Корректировки Ошибочные. Особенно относительно большое количество изображений, персонажи, ситуации.
Примечание указывает на необходимость сохранения на интерфейсе charater мыши модифицированном после установки значок кнопки, а затем нажмите кнопку Сохранить. -
Создание файлов шрифтов имеют
эхо шрифт 0 0 0 0 0> font_properties
будет генерировать «font_properties» файлов. Размер дисплея файла 0 байт. На самом деле, есть 'шрифт 0 0 0 0 0 "' содержание. -
обучение
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng -psm 7 nobatch box.train
-
Сформировать набор символов файлы
unicharset_extractor chi_my.font.exp0.box
файла поколения «unicharset». -
Создавать формы файлы, собранный профиль персонажа, профиль персонаж нормализацию четырех файлов.
- Команда
shapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
поколение "" pffmtable "shapetable" "inttemp " файл. - Команда
mftraining -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
генерации файла «pinyin.unicharset». - Команда
cntraining langyp.fontyp.exp0.tr
Файл поколения «normproto».
- Команда
-
Переименовать, слияние учебного файлу
переименование normproto langyp.normproto
переименования inttemp langyp.inttemp
переименование pffmtable langyp.pffmtable
переименование unicharset langyp.unicharset
переименованию shapetable langyp.shapetable
слияние учебного файл,
combine_tessdata langyp.
Сформировать langyp.traineddata файл. -
Полученные файлы «langyp.traineddata» языковые пакеты копируется в каталог тессеракта tessdata,
вы можете использовать его для китайского распознавания символов.
实例:
G: \ Program Files (x86) \ jTessBoxEditorFX \ Samples \ пиньинь> unicharset_extractor pinyin.font.exp0.box
извлекая unicharset из pinyin.font.exp0.box
Написала unicharset файл ./unicharset.
G: \ Program Files (x86) \ jTessBoxEditorFX \ образцы \ пиньинь> shapeclustering -F font_properties -U unicharset -О pinyin.unicharset pinyin.font.exp0.tr
Чтение pinyin.font.exp0.tr ...
G: \ Program Files (x86 ) \ jTessBoxEditorFX \ образцы \ пиньинь> mftraining -F font_properties -U unicharset -О pinyin.unicharset pinyin.font.exp0.tr
Читать таблицу формы shapetable 27 форм
G: \ Program Files (x86) \ jTessBoxEditorFX \ образцы \ пиньинь> cntraining pinyin.font.exp0.tr
Чтение pinyin.font.exp0.tr ...
кластеризация ...
G: \ Program Files (x86) \ jTessBoxEditorFX \ Samples \ пиньинь> combine_tessdata пиньинь.
Объединение tessdata файлов
Подтверждения
https://www.cnblogs.com/zhongtang/p/5555950.html
автоматических обучающих 3500 часто используемых китайских иероглифов: HTTPS: //blog.csdn.net/woaipangruimao/article/details/78741022
https://blog.csdn.net / duanshao / Статья Эта статья / Детали / 79835651
https://blog.csdn.net/woaipangruimao/article/details/78685727
http://www.cnblogs.com/wzben/p/5930538.html
https://blog.csdn.net/sylsjane/article/details/83751297