智能票据识别数据解决方案及行业案例

随着经济往来的日益频繁，票据表单等纸质材料在办公室中随处可见。一般来说，这些纸质材料都有着不容忽视的重要性，若不加以整理，便很容易丢失、损坏，造成难以处理的麻烦。信息化时代，票据、表单等纸质资料的管理方式也在不断推陈出新，如今，电子化管理才是主流。

将纸质资料信息化是数字化时代的必然趋势。过往票据、表单等资料信息化完全依赖人工录入，不仅效率低、易出错，且成本高，需要耗费巨大的人力物力。同时，人力录入的数据不是AI需要的数据，难以被复用，也无法支撑AI算法。

以保险行业为例，截至2018年底，我国保险市场的年保费收入总额达到3.8万亿。十年来一直保持高增速，目前增速也保持在10%左右。保险市场的不断增长促生了的大量业务票据，2017年保险类单据总计约51亿张。按照年平均增长率10%计算，2021年保险类单据预计在75亿张。未来大概率会突破每年百亿张。

而使用OCR表单识别系统，只需拍照扫描，系统便会自动采集数据信息。数据堂可以提供提供完整的、高效的保险单据治理解决方案——数加加Pro标注平台。用来完成OCR表单识别系统的核心能力搭建。其方案主要包含：OCR预识别 + 人工管理 + 数据输出 + 模型迭代四大模块，构成Human In the Loop人在回路闭环。

数加加Pro是什么：基于数据堂多年实验经验研发的数据集生产平台。其覆盖了多年实际生产经验沉淀打磨的模板工具，以及丰富质量管理标注流程，包含了数据处理以及在线预识别能力。

数加加Pro定位：多年标注实战经验的集大成者。

基于我司OCR识别引擎，提供单据OCR预识别服务（行级检测+文本转写）

目前预识别性能：检测识别精度：字精确度90%以上（字体清晰且无大角度倾斜）

检测识别速度：25s/张(CPU)、1s/张(GPU)

随着数据集不断更新和算法迭代，算法性能会继续提升。后面可以灵活切换成客户自己的预识别引擎，标注平台与预识别引擎通过插件化实现轻耦合，客户只需按照插件规范进行少量编码开发Docker镜像上传到平台即可。

真实数据检测识别样例1：增值税专用发票

通过预识别处理，在OCR模板中可以展示机器的预识别标签给标注人员。标注人员要做机器预识别的错误检查，对于错误预识别处进行修改更正再提交给质检。

通过高效合理的OCR预识别引擎，可以有效的提高标注人员30%左右的标注效率。

真实数据检测识别样例2：门诊收费单据

数据堂OCR预识别应用插件目前可以处理的票据类型涵盖发票、门诊收费票据、出租车票据、保险基金、住院记录、车险单、银行承兑汇票等多行业、多种类的票据形式。

标注人员对预识别数据进行检查后，可以提交的数据到后续的质量控制环节：数据质检。数据质检支持抽检比例设定，错误类型自定义等功能。

质检人员可以指出标注人员的整图错误和标签级错误，给出错误原因并支持将数据打回给标注返修。系统内置了多种错误类型，比如：框不贴合、标注对象不符，标签和属性错误等。也支持项目经理针对项目特点自定义错误类型。

标注数据目前以业界通用的json格式输出。面向不同客户需求，我方可以提供多种通用在线格式转换程序：例如Pascal VOC(.xml)、Labelme(.json)等输出数据既可以导入数据平台系统帮助实际业务，也可以形成标准AI数据集用于算法迭代。

综上，数据堂通过数加加Pro私有化部署标注平台，可以提供完整的、高效的单据治理解决方案，并通过私有化部署等手段保证客户的数据隐私和安全。

其解决方案核心内容包括如下：

算法：OCR预识别能力，并可以使用用户自己的OCR预识别引擎；
工具：功能完备的数据生产平台；
人员：可以提供数据标注基地人员服务及项目管理。

在实际客户初期OCR的解决方案，我们建议如下目标，采用三步走的方式：

初期：单据标注录入线上化，规范化，构建OCR预识别基础能力；
中期：实现票据录入 —> AI数据集 —> OCR模型迭代闭环，强化整理能力；
后期：OCR预识别能力趋于完美，单据录入高度自动化。

智能票据识别数据解决方案及行业案例

猜你喜欢