OCR有哪些应用场景

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/wurmyq/article/details/90755568

一.OCR应用场景
1.四类:
数字原生类: 
淘宝商品图是最具有代表性的数字原生类文字图。 
特点:1)最复杂多样:各种字体、背景、排列、组合等(MTWI挑战赛-最大的OCR竞赛)。 
2)最有价值:商品信息载体 
3)图片量最大:千亿图片,每日不停更新。

文档类: 
文档类OCR需求非常广,涉及各种公务场景。 
特点:1)100%识别率:人的输入准确率为98%,探索AI知识的极限;2)产品易用性:完善的功能,贴近业务需求;3)商业应用:文档类商业成熟。 
拍照表单类:拍照表单类OCR价值非常大,非常有挑战性。 
特点:1)场景&数据:数据具有隐私性,典型应用场景沉淀技术能力;2)产品通用性:专家知识+模板=文本理解,一套方案解决上百种类型。3)商业价值:和行业场景深度接入,AI能力改善行业数据流程。(提供定制的拍照表格识别和结构化云服务) 
自然场景类: OCR学术研究的重点方向。 
特点:1)数据:无具体数据类型定义,比如街拍数据;2)技术难点:不确定性,复杂环境干扰本质难点是定位和识别;3)商业价值:市场潜力巨大,如:车牌识别、摄像监控、自动驾驶。(技术能力领先,行业落地中)

2.OCR算法:
算法能力: 
两种核心算法能力:1)通用文字识别;2)通用结构化(文字识别是结构化的基础) 
 
基础算法:文字定位、文字识别

1.文字定位:定位文字在图像中的位置表征成行。 
特征问题:背景等特征干扰问题,深度学习可以较好的解决特征问题。 
Scale问题:物体定位的共性问题,字高范围8-300个像素 
成行问题:文字定位特有问题。 
(1)Scale问题:物体定位的共性问题 
 
(2)成行问题:文字定位特有问题 
 
2.文字识别 
在文字定位的基础上,识别文字内容,同时,输出单字位置和识别率用于文本理解。 
 

猜你喜欢

转载自blog.csdn.net/wurmyq/article/details/90755568