まず、環境を設定
インストールしたTesseract OCR-は、ダウンロード漢字の識別が付属しています!しかし、実際の使用では、無効識別するための
認識効果を改善するために、必要なトレーニングコンテンツ識別フォントに応じて決定!
フォントのトレーニングは、最良たTesseract OCR-のインストールディレクトリで行われます。
1.ダウンロードしたTesseract-OCRエンジン:使用の詳細、クリックしてください。
2、jTessBoxEditorダウンロード:HTTPS://www.softpedia.com/get/Multimedia/Graphic/Graphic-Others/jTessBoxEditor.shtml
https://github.com/tesseract-ocr/tesseract/wiki/AddOns
それともます。https:/ /dl.pconline.com.cn/download/1060986.html
3、chi_sim.traindataフォントをダウンロードしてください。中国は認識しなければなりません。ただ素晴らしいの後、(あなたがインストールすることができます)内側たTesseract OCR-プロジェクトtessdataフォルダを置きます。
jTessBoxEditorと第二に、自動トレーニング3500の一般的に使用される漢字
次のように最初のステップは、要約されます。
第三に、トレーニングフォント
サンプル画像と準備ができて最初のトレーニング。
-
インストールディレクトリのCDのプログラムファイル\たTesseract OCR-のフォルダに-たTesseract OCR
-
オープンjTessBoxEditor、[ツール] - >、TIFF、[開く]ダイアログボックスをマージトレーニングサンプルフォルダを選択して、トレーニングサンプル画像に関与していることがすべてを選択し、ダイアログボックスを注意して、「ファイルの種類」PNGを選択してください
-
次に、[開く]ダイアログボックスで、「chi_my.font.exp0.tif」を入力し、フォーマットのTIFFがあります。あなた自身の定義に変更することができますChi_my。それはchi_my.font.exp0.tifファイルを生成します。
-
世代「chi_my.font.exp0.box」ファイル;コマンドラインを実行します
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng batch.nochop makebox
-
chi_my.font.exp0.tifファイルを選択し、>オープン - オープンjTessBoxEditor、ボックスエディタをクリックします。
-
調整の誤認。特に、画像、文字、状況の比較的多数。
注アイコンボタンを設定した後に変更charaterクリックインターフェイス上で保存し、保存ボタンをクリックする必要性を識別します。 -
フォントファイルを作成しています
0 0 0 0 0>エコーフォント font_propertiesは
「font_properties」ファイルを生成しますが。表示ファイルのサイズは0バイトです。実際には、 ' "フォント0 0 0 0 0ある "' コンテンツ。 -
トレーニング
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng -psm 7 nobatch box.train
-
文字セットファイルを生成
chi_my.font.exp0.boxのunicharset_extractor
世代「unicharset」ファイルを。 -
シェイプファイル、収集された文字のプロファイル、4つのファイルの文字プロファイルの正規化を生成します。
- コマンド
shapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
世代"shapetable" "inttemp" "pffmtable " ファイル。 - コマンド
mftraining -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
世代「pinyin.unicharset」ファイル。 - コマンド
cntraining langyp.fontyp.exp0.tr
世代「normproto」ファイル。
- コマンド
-
名前の変更、トレーニングファイルをマージ
langyp.normprotoリネームnormproto
名前変更がlangyp.inttemp inttemp
改名pffmtable langyp.pffmtable
リネームunicharsetがlangyp.unicharset
shapetable langyp.shapetable名前変更を
トレーニングファイル、マージ
combine_tessdata langypを。
langyp.traineddataファイルを生成します。 -
得られた「langyp.traineddata」言語パックファイルがたTesseract tessdataディレクトリにコピーされ、
あなたは中国の文字認識のためにそれを使用することができます。
实例:
G:\プログラムファイル(x86の)\ jTessBoxEditorFXピンイン\サンプル\> unicharset_extractor pinyin.font.exp0.box
抽出unicharset pinyin.font.exp0.boxから
unicharsetファイル./unicharsetを書きました。
G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> shapeclustering -F font_properties -U unicharset -O pinyin.unicharset pinyin.font.exp0.tr
読むpinyin.font.exp0.tr ...
G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> mftraining -F font_properties -U unicharset -O pinyin.unicharset pinyin.font.exp0.tr
27面の形状の形状テーブルshapetableを読む
G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> cntraining pinyin.font.exp0.tr
読書pinyin.font.exp0.tr ...
クラスタリング...
G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> combine_tessdataピンイン。
tessdataファイルを結合
謝辞
https://www.cnblogs.com/zhongtang/p/5555950.html
自動訓練3500の一般的に使用される漢字:HTTPS://blog.csdn.net/woaipangruimao/article/details/78741022
https://blog.csdn.net / duanshao / Articleこの記事だった/詳細/ 79835651
https://blog.csdn.net/woaipangruimao/article/details/78685727
http://www.cnblogs.com/wzben/p/5930538.html
https://blog.csdn.net/sylsjane/article/details/83751297