Тессеракт-OCR обучение шрифта

Предупреждение: Данная статья является блоггером оригинальной статьи, следовать CC 4.0 BY-SA авторского соглашения, воспроизведенный, пожалуйста , приложите ссылку первоисточника и это утверждение.
Эта ссылка: https://blog.csdn.net/wsp_1138886114/article/details/84098903

Во-первых, создать окружающую среду

Установка Тессеракт-OCR поставляется с идентификацией загрузки китайских иероглифов! Но в реальных условиях эксплуатации , чтобы определить , неэффективно,
для того , чтобы улучшить эффект узнавания и определяются в соответствии с требуемым содержанием обучения идентифицированного шрифтом!
Обучение шрифтов лучше всего осуществляется в директории установки Тессеракт-OCR.

1. Скачать Тессеракт-OCR двигатель: Используйте детали, пожалуйста , нажмите .

2, jTessBoxEditor Скачать: HTTPS: //www.softpedia.com/get/Multimedia/Graphic/Graphic-Others/jTessBoxEditor.shtml
https://github.com/tesseract-ocr/tesseract/wiki/AddOns
Или: HTTPS: / /dl.pconline.com.cn/download/1060986.html

3, скачать chi_sim.traindata шрифт. Китайцы должны признать. После того, как просто замечательно, поставить Тессеракт-OCR папку проекта tessdata внутри (можно установить).

Во-вторых, автоматическое обучение 3500 часто используемых китайских иероглифов с jTessBoxEditor

Первые шаги можно резюмировать следующим образом:

В-третьих, обучение шрифты

Первая тренировка готовы с эталонным изображением.

  1. Тессеракт-OCR в папку каталога установочного компакт-диска Program Files \ Тессеракт-OCR

  2. Open jTessBoxEditor, выберите Сервис -> Merge TIFF, диалоговое окно Открыть, выберите папку, в которой учебный образец, и выбрать все, чтобы принять участие в картине обучающей выборки, обратите внимание, диалоговое окно «Тип файла» выбрать формат PNG

  3. Тогда есть диалоговое окно Открыть, введите «chi_my.font.exp0.tif», формат TIFF. Chi_my, который может быть изменен на собственное определение. Он генерирует chi_my.font.exp0.tif файл.

  4. Генерация файла «chi_my.font.exp0.box», выполнить командную строку
    tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox
    tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng batch.nochop makebox

  5. Открыть jTessBoxEditor, нажмите Box Editor -> Открыть, выберите файл chi_my.font.exp0.tif.

  6. Корректировки Ошибочные. Особенно относительно большое количество изображений, персонажи, ситуации.
    Примечание указывает на необходимость сохранения на интерфейсе charater мыши модифицированном после установки значок кнопки, а затем нажмите кнопку Сохранить.

  7. Создание файлов шрифтов имеют
    эхо шрифт 0 0 0 0 0> font_properties
    будет генерировать «font_properties» файлов. Размер дисплея файла 0 байт. На самом деле, есть 'шрифт 0 0 0 0 0 "' содержание.

  8. обучение
    tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng -psm 7 nobatch box.train

  9. Сформировать набор символов файлы
    unicharset_extractor chi_my.font.exp0.box
    файла поколения «unicharset».

  10. Создавать формы файлы, собранный профиль персонажа, профиль персонаж нормализацию четырех файлов.

    • Команда shapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
      поколение "" pffmtable "shapetable" "inttemp " файл.
    • Команда mftraining -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
      генерации файла «pinyin.unicharset».
    • Команда cntraining langyp.fontyp.exp0.tr
      Файл поколения «normproto».
  11. Переименовать, слияние учебного файлу
    переименование normproto langyp.normproto
    переименования inttemp langyp.inttemp
    переименование pffmtable langyp.pffmtable
    переименование unicharset langyp.unicharset
    переименованию shapetable langyp.shapetable
    слияние учебного файл,
    combine_tessdata langyp.
    Сформировать langyp.traineddata файл.

  12. Полученные файлы «langyp.traineddata» языковые пакеты копируется в каталог тессеракта tessdata,
    вы можете использовать его для китайского распознавания символов.

实例:
G: \ Program Files (x86) \ jTessBoxEditorFX \ Samples \ пиньинь> unicharset_extractor pinyin.font.exp0.box
извлекая unicharset из pinyin.font.exp0.box
Написала unicharset файл ./unicharset.
G: \ Program Files (x86) \ jTessBoxEditorFX \ образцы \ пиньинь> shapeclustering -F font_properties -U unicharset -О pinyin.unicharset pinyin.font.exp0.tr
Чтение pinyin.font.exp0.tr ...
G: \ Program Files (x86 ) \ jTessBoxEditorFX \ образцы \ пиньинь> mftraining -F font_properties -U unicharset -О pinyin.unicharset pinyin.font.exp0.tr
Читать таблицу формы shapetable 27 форм
G: \ Program Files (x86) \ jTessBoxEditorFX \ образцы \ пиньинь> cntraining pinyin.font.exp0.tr
Чтение pinyin.font.exp0.tr ...
кластеризация ...

G: \ Program Files (x86) \ jTessBoxEditorFX \ Samples \ пиньинь> combine_tessdata пиньинь.
Объединение tessdata файлов

Подтверждения
https://www.cnblogs.com/zhongtang/p/5555950.html
автоматических обучающих 3500 часто используемых китайских иероглифов: HTTPS: //blog.csdn.net/woaipangruimao/article/details/78741022
https://blog.csdn.net / duanshao / Статья Эта статья / Детали / 79835651
https://blog.csdn.net/woaipangruimao/article/details/78685727
http://www.cnblogs.com/wzben/p/5930538.html

https://blog.csdn.net/sylsjane/article/details/83751297

рекомендация

отblog.csdn.net/wsp_1138886114/article/details/84098903