使用Tesseract训练lang文件并OCR识别集装箱号

其他 2018-05-19 16:11:19 阅读次数: 2

在某产品的规划中，想要通过监控视频进行 “集装箱计数” 与 “集装箱号” 识别，以便与舱单数据进行自动化的对比，发现潜在的监管风险。在研究了不少商用的集装箱号识别系统后，发现为了保证识别准确率几乎都采用了 固定角度 + 多位置识别 的原始图像获取方式以降低图片质量干扰，提高识别准确率。
考虑到用户业务的应用场景，不能在像“卡口”这样的位置进行三机位的固定场景的集装箱号识别。

所以，为了做这方面尝试，首先从集装箱号的OCR识别开始研究，理论上，集装箱编号就是“英文字母+数字”的组合，但是实践验证利用Tesseract自带的eng词库进行识别，准确率有限，还是要考虑自己做针对性的训练，生成专用词库。

在这里记录下Tesseract训练集装箱号词库过程。

1.环境准备

1.1系统环境

之前在Ubuntu 16.04 下跑过一遍完整的流程，最近又收集了一些样本图片，所以再训练看看效果，本次准备在Mac环境下进行。

所以，本文的所有操作，没有特殊说明都是在macOS 10.12.6下，Mac下与Ubuntu下过程、命令都一样，唯一不同的就是最后lang文件保存的位置了。

另外，建议Mac党准备一个Windows电脑，虚机没测试，但是理论上应该不会有问题，为什么需要下面会进行说明。

1.2基础环境安装

1.2.1 brew 安装

Homebrew 是macOS下的包管理工具，教程很多，自行搜索就好,基本就是终端执行一句话：

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

1.2.2 imagemagick 安装

imagemagick 是一个牛逼到“奇葩”

猜你喜欢

转载自blog.csdn.net/qq_37674858/article/details/80365914

使用Tesseract训练lang文件并OCR识别集装箱号

基于PaddleOCR的集装箱箱号检测识别

采用太平洋AI集装箱箱号识别接口实现集装箱箱号识别

人工智能：基于PaddleOCR的多视角集装箱箱号检测识别

危险集装箱

免费集装箱箱号识别API，人工智能企业CIMCAI集装箱识别检测人工智能平台全球4千企业用户，支持API集成二次开发人工智能企业

集装箱箱号识别API免费，中国上海人工智能企业CIMCAI中集飞瞳，集装箱人工智能平台全球近4千企业用户，箱况检测残损识别缺陷检验

集装箱类型大全

免费集装箱号识别API免费集装箱信息识别，中国人工智能企业CIMCAI集装箱识别云服务全球4千企业用户，中国人工智能企业智慧港航

从「集装箱」思考Docker风潮

集装箱号识别API免费箱号识别免费，中国上海人工智能中集飞瞳全球领先AI集装箱识别检测云服务，智慧港航智能化港航中国上海人工智能

使用Tesseract-OCR训练文字识别记录

集装箱号识别API免费信息识别免费，中国人工智能企业中集飞瞳全球最大AI集装箱识别检测云服务，智慧港航智能化港航中国人工智能企业

中国人工智能领军企业飞瞳引擎集装箱识别云服务4千企业用户，集装箱箱号识别API免费，小程序拍照识别或API集成中国人工智能企业

集装箱号识别API免费，中国上海人工智能公司CIMCAI集装箱识别云服务全球4千企业用户，智慧港航智能化港航中国上海人工智能公司

中国人工智能企业中集飞瞳，集装箱人工智能平台全球4千企业用户，免费集装箱号识别信息识别API，智慧港航智能化港航中国人工智能企业

OCR开源库Tesseract汉字识别训练

码头集装箱：现代应用交付的挑战

集装箱改变世界读书笔记（一）

多云之战：SD-WAN、×××、集装箱网络

dock是什么？ docker就是集装箱原理【转】

集装箱RFID物流运输管理系统应用

集装箱校验码校验规则

近期国际航运集装箱市场动态

自动化集装箱码头建设指南

使用jTessBoxEditorFX训练Tesseract-OCR教程

Tesseract-OCR的简单使用与训练

使用Tesseract对图片文字OCR识别

tesseract-ocr 使用java进行识别

文本识别 (OCR)引擎之Tesseract的使用

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)