MRZ code extraction from visa and passport documents using convolutional neural networks
Abstract
- 检测和提取护照和签证上的机器可读区 (MRZ) 信息对于验证文件真实性越来越重要。然而,执行类似任务的计算机视觉方法,例如光学字符识别 (OCR),无法以合理的准确度从护照的数字图像中提取 MRZ。 我们提出了一种基于卷积神经网络的专门设计的模型,该模型能够从任意方向和大小的护照的数字图像中成功提取 MRZ 信息。我们的模型在护照和签证数据集上实现了 100% 的 MRZ 检测率和 99.25% 的字符识别宏 f1 分数。
Introduction
-
在金融、移民和行政等领域,护照的数字副本在身份和信息验证以及欺诈检测中发挥着越来越重要的作用。然而,由于护照和签证布局不统一,从护照和签证中自动检索信息可能很困难。 姓名、出生日期、到期日期和签发日期等信息以各种格式出现在不同签发机构的护照和签证上,并且出现在不同的位置。此外,与可以检查真实性的实体护照和签证不同,这些文件的数字副本伪造和篡改的门槛较低。简单的图像编辑软件可用于更改护照或签证上的关键细节以进行欺诈。
-
护照和签证上的机读区 (MRZ) 对于应对这两个挑战至关重要。为了验证信息,MRZ 以预先指定的格式和位置显示关键信息。举个欺诈的例子,我们的一些客户上传了他们在互联网上找到的护照图像,而不是他们自己的文件。因此,能够读取 MRZ 并将其与客户输入的信息进行比较是欺诈检测的重要步骤。同样,MRZ 的格式使其比护照的其他部分更难操纵,需要领域知识和对细节的更多关注。因此,定位和提取护照和签证 MRZ 为计算机视觉提供了一个重要而独特的应用。
-
我们提出了一种专为处理 MRZ 文本而设计的新型神经网络模型,其特性旨在克服 MRZ 提取所特有的挑战。具体来说,我们设计了一个端到端可训练的 MRZ 检测器和提取器,使用 MobileNetV2 作为主干,并添加了空洞空间金字塔池化层来增强感受野。为了更好地处理各种尺寸的护照图像,我们提出了一个新颖的系统,其中第一个“粗”模型提取 MRZ 边界框,第二个“细”模型细化边界框预测并提取 MRZ 文本。 该系统设计还具有减少检测所需的内存和时间的额外好处。 我们提出的系统在护照和签证的数字图像上实现了 100% 的 MRZ 检测率和 99.25% 的字符识别宏 f1 分数。
Background
Machine-Readable Zone (MRZ)
- 大多数国家的护照和签证上都有机读区 (MRZ),以方便进行可靠的数据提取和处理。由于不同国家的护照在字体、样式和格式上各不相同,MRZ 提供了一种从护照中提取关键详细信息的简单方法,包括姓名、护照号、国籍、出生日期、性别和护照到期日。MRZ 文本通常出现在护照身份页的开头附近,通常显示为页面底部的两行 44 个字符。虽然一些国家/地区颁发的身份证和签证等文件采用了其他 MRZ 格式,但我们限制这项工作仅考虑这种 MRZ 格式,这种格式最常见于我们的客户通常上传的护照和美国签证图像中。MRZ 仅由阿拉伯数字(数字 0-9)、拉丁字母的大写字母(“A”、“B”、“C”……)和填充字符“<”组成。虽然 MRZ 过去常用于快速从各种护照中提取重要信息,但现在它正逐渐成为文件验证和篡改检测的有用工具。例如,企业和州可以验证 MRZ 中编码的信息是否与护照可视区 (VZ) 中的信息相匹配。虽然有很强的动机和熟练的伪造者可以进一步更改 MRZ,但验证 MRZ 信息是一种简单、低成本的方法,可用于检测基本篡改,例如姓名、有效期或出生日期更改。 随着护照照片作为一种验证身份的方法越来越受欢迎,准确、快速地提取护照 MRZ 已成为身份验证流程中必不可少的一部分。
Related Work
- 利用深度学习的进步的模型,例如卷积神经网络 (CNN),已成功应用于类似任务,例如确定照片的感兴趣区域 (ROI) 和光学字符识别 (OCR) 。其中,从数字护照图像中提取 MRZ 与在自然场景中检测和提取文本的工作最为相关。
Text Detection in Natural Scenes
-
已经开发或利用了计算机视觉中的几种技术来提高文本场景检测的性能。使用图像二值化来分割文本区域。使用最大稳定极值区域 (MSER) 来改进检测。 使用形态学操作来分割文本区域。 使用方向梯度直方图 (HOG) 来提高性能。使用颜色属性来检测和提取文本区域。
-
最近,ICDAR 2015 稳健阅读竞赛数据集为场景文本检测和提取提供了宝贵的基准 。许多近期研究都展示了该数据集的出色性能。 使用完全卷积网络 (FCN) 模型,分别训练以预测文本区域的显着性图和每个字符的质心。 类似地训练了 FCN,但在文本的片段和链接上进行训练,这些片段和链接组合在一起进行最终检测。 提出了一种基于单次注意的机制,尝试从粗到细的文本检测方法。 利用弱监督框架,使用单词注释来训练字符检测器。 提出了 EAST(一种高效准确的场景文本检测器),它跳过了候选聚合和单词分区等中间步骤,直接预测单词和文本行。 尝试使用 FCN 来考虑更多自由格式的文本示例,例如弯曲文本,以估计场景区域的几何属性。中提出的对象检测器方法上进行了迭代。 提出了一种使用实例分割进行场景文本检测的新方法。利用文本边界框的角点进行更好的分割和检测。 为每个文本实例生成不同的核尺度,以分割相近的文本实例。 在特征提取过程中结合了多级特征以提高性能。 使用受 Mask R-CNN 启发的架构提高了性能。 提出了一个在分割网络中执行二值化的模块。 通过在两个过程之间共享卷积特征来训练网络以同时进行检测和识别。 利用多个分支实现几何规范化。 在以前的工作基础上,结合了一种将潜在四边形离散化为各种水平和垂直位置的方法。到目前为止, 通过在合成数据上进行训练、使用字符作为基本元素并消除 ROI 池化,取得了最令人印象深刻的性能。
Passport MRZ Detection and Extraction
-
虽然基于光学字符识别 (OCR) 的方法可以以相当好的精度提取文本,但最先进的方法却难以准确地提取 MRZ 文本。基于 Tesseract OCR 的 PassportEye 的 MRZ 检测率相对较差,就是明证。同样,为场景文本提取而设计的模型并不天生适合 MRZ 提取。例如,端到端场景文本识别模型(如 FOTS 和 Mask Textspotter )可能能够检测和识别 MRZ。 然而,这些模型被设计用于处理任意数量字符的文本行,并采用 LSTM 等技术来识别文本。由于护照和签证中的常见 MRZ 文本始终为 2 行,每行 44 个字符,因此专门设计的神经网络架构可能会提高性能。此外,用于身份验证的典型护照图像是用智能手机拍摄的,因此会生成高分辨率图像,其中护照出现在不同位置和不同大小(见图 1),这带来了额外的挑战。
-
-
图 1:护照图像示例。(a)护照的典型页面包含 2 行 MRZ 区域(底部)。护照页面可以仅占据图像的一小部分(b),也可以占据整个图像(c)。
-
-
2011 年, 提出了一种基于硬件的便携式护照读取器方法,用于检测和读取实体护照的 MRZ。 提出了一种使用模板匹配提取护照 MRZ 的方法,但仅适用于护照被黑色边框包围的图像。 探索了用于护照 MRZ 中伪造检测的光学字体识别。 讨论了校正或后处理护照 MRZ 识别结果的方法。[Real-time Detection and Recognition of Machine-Readable Zones with Mobile Devices] 提出了一种在移动设备上读取 MRZ 图像的算法,实现了 5 帧 88.18% 的 MRZ 检测率和单帧 56.1% 的 MRZ 检测率,字符读取率为 98.58%。相比之下,我们的模型在护照和签证图像上的单帧 MRZ 检测率为 100%,字符识别宏 f1 分数为 99.25%。
Methodology
- MRZNet 是一个框架,可以检测和识别护照和签证图像中任意方向和大小的 MRZ 文本。本节介绍 MRZNet 架构的细节。
Overall architecture
- MRZNet 的整体架构如图 2 所示。它包括两个子神经网络,MRZSpotter(粗)和 MRZSpotter(精细),它们具有相似的架构。高分辨率原始图像首先被填充为正方形,然后下采样为 768 x 768 作为 MRZSpotter(粗)的输入。MRZSpotter(粗)定位 MRZ 区域并输出边界框的位置和方向。然后,我们旋转原始图像使其直立,裁剪以边界框中心为中心的图像并相应地填充/调整图像大小以获得 768 x 768 图像,其中 MRZ 区域大致位于中心并跨越整个图像。然后将该图像输入 MRZSpotter(精细)以进行更精细的定位和 MRZ 代码识别。我们采用这种架构来处理任意方向和大小的护照/签证图像。现实世界中的护照/签证图像,无论是扫描的还是从智能手机拍摄的,通常都是高分辨率的。根据用户捕获图像的方式,MRZ 区域可以仅占据图像的一小部分(图 1(b)),也可以跨越整个图像(图 1 ©)。将高分辨率图像直接输入神经网络不仅耗费时间和内存,而且可能会导致图 1 © 等图像的 MRZ 代码识别结果不佳。具体来说,定位这些高分辨率图像需要神经网络内非常大的感受野,从而增加时间和内存需求。另一方面,将下采样图像输入神经网络会导致图 1 (b) 等图像的 MRZ 识别结果不佳,因为文本在低分辨率下无法识别。为了解决这个难题,我们提出了一种架构,首先使用下采样图像粗略地定位 MRZ 区域,然后标准化图像(参见图 1 ©),最后执行 MRZ 文本识别。
-
-
图 2:MRZNet 的整体结构。MRZSpotter(粗略)从下采样图像中粗略定位 MRZ 区域,而 MRZSpotter(精细)则在原始高分辨率图像上细化定位并识别 MRZ 文本。
-
MRZSpotter
-
MRZSpotter 的架构如图 3 所示。 由于我们在生产中使用 CPU 来运行模型,因此我们采用 MobileNetV2 作为主干以降低计算成本。与 EAST 类似,我们将上采样的高级语义特征图与低级特征图连接起来,并将它们逐渐合并成 U 形架构。这样,神经网络就可以利用不同级别的特征,并能够检测不同大小的 MRZ 区域。在一些例子中,一行文本将跨越整个图像(参见图 1 ©)。 为了更好地处理这些图像,需要更大的感受野来查看图像的“大图”,以便准确检测大文本边界框。我们在 MobileNetV2 特征提取器的末尾应用了空洞空间金字塔池 (ASPP) 来容纳这些更大的感受野。ASPP 之前已被 采用来扩大视野。
-
-
图 3:具有 N 个空洞空间金字塔池化 (ASPP) 层的 MRZSpotter。MRZSpotter(粗)和 MRZSpotter(细)都使用了与该图所示的相同架构和损失,但参数 N 不同。我们在 MobileNetV2 的最后一个卷积阶段之上堆叠了 N 个 ASPP 层,以增加感受野,并在文本定位分支之外添加了文本识别分支。
-
-
为了进一步增加视野,我们堆叠了多层 ASPP,如 ResNet 中所示。特征合并后,将 1x1 卷积层应用于输出,以确定像素中存在 MRZ 区域的可能性(得分图)、MRZ 文本框的位置(4 个通道,像素位置到矩形顶部、右侧、底部和左侧边界的距离)和 MRZ 框旋转角度。应用非最大抑制算法来选择最可能的 MRZ 边界框。最后,将识别分支应用于 MRZ 边界框和特征合并分支的输出图以提取 MRZ 文本。
MRZSpotter pipeline
-
我们首先使用 MobileNetV2 主干从护照/签证图像中提取特征图。在第 4 阶段卷积层结束时,MobileNetV2 生成 320 个大小为 24 × 24 的特征图。然后,我们添加四个并行运行的卷积层以形成 ASPP 层。这四个卷积层的扩张率 分别为 1、2、4 和 8。我们将这四个层生成的特征图连接起来(连接层),然后应用 1 × 1 卷积层将特征图的数量减少到 320,然后将生成的特征图输入到下一个 ASPP 层。 与 ResNet 类似,在两个 ASPP 层的连接层之间添加了跳跃连接 方式。在 N 个 ASPP 层之后,我们对特征图进行双线性上采样(反池化)至大小 48 × 48,然后将它们与来自 MobileNetV2 第 3 阶段卷积层末尾的特征图输出连接起来。我们使用 1 × 1 卷积层和 3 × 3 卷积层融合这些特征图。然后,我们将生成的特征图双线性上采样为 96 × 96 大小,并将其与 MobileNetv2 第 2 阶段卷积层的输出连接起来。
-
在将特征图与 2 个卷积层融合后,我们将它们双线性上采样为 192×192 大小,并将它们与 MobileNet V2 第 1 阶段卷积层的输出连接起来。然后应用三个卷积层融合并提取这些特征图的特征,以产生特征合并分支的输出,该输出由 64 个大小为 192×192 的特征图组成。与 EAST 类似,对于特征合并分支输出中的每个像素,我们在输出分支应用 1×1 卷积层来产生 0-1 的概率分数,该分数表示像素处是否存在 MRZ(分数图)、mrz 边界框到像素的顶部、底部、左侧和右侧的距离(MRZ 文本框图)以及边界框的旋转角度(mrz 旋转角度图)。由于我们有 192 × 192 个像素,因此总共生成了 192 × 192 = 36864 个边界框。我们拒绝概率得分低于 0.5 的边界框,并使用非最大抑制 (NMS) 融合其余边界框。 然后选择得分最高的边界框作为识别分支的输入。
Recognition branch
-
MRZSpotter(粗)和 MRZSpotter(精)都包含用于识别 MRZ 文本的识别分支。 我们的识别分支灵感来自 [An end-to-end textspotter with explicit alignment and attention]。图 4 显示了架构。给定来自 NMS 的四边形 MRZ 区域,我们从特征合并分支输出处的卷积图中采样一个 16 x 352 网格。与 [An end-to-end textspotter with explicit alignment and attention] 类似,我们使用了双线性采样。 更具体地说,空间位置 (px; py) 处采样点 p 的特征向量 vp 计算如下:
-
v p = ∑ i = 0 3 v p i g ( p x ; p i x ) g ( p y ; p i y ) , ( 1 ) v_p = \sum^3 _{i=0} v_{pi}g(p_x; p_{ix})g(p_y; p_{iy}), (1) vp=i=0∑3vpig(px;pix)g(py;piy),(1)
-
其中 vpi 表示点 p 周围的四个点,g(p1; p2) 表示双线性插值函数。
-
-
提取采样网格后,应用三层 3x3 卷积和 2x2 最大池化对提取的特征图进行下采样,从 16x352(点)到 2x44(每行字符数)。每次下采样时,我们将通道数加倍。 最后,应用 1x1 卷积层将通道数减少到 37(MRZ 代码中的有效字符数),并应用 softmax 获得 88 个字符中每个字符的出现概率。
-
-
图 4:识别分支的架构。与典型场景文本识别网络中采用 LSTM 识别任意长度文本不同,我们从 EAST 的输出卷积层双线性采样 16 x 352 网格,并将其通过几个全卷积层和最大池化层,将特征图大小减小到 2 x 44,以识别 2 行、每行 44 个字符的 MRZ 文本。
-
Loss functions
-
MRZSpotter(粗)和 MRZSPotter(细)分别使用相同的损失函数进行训练:
-
L = L s + λ g L g + λ c L c , ( 2 ) L = L_s + λ_gL_g + λ_cL_c, (2) L=Ls+λgLg+λcLc,(2)
-
其中 Ls 是得分图的损失,Lg 是几何损失,Lc 是字符分类的损失。在我们的实验中,我们将 λg 和 λc 设置为 1。对于得分图的损失,我们使用骰子损失代替 EAST 采用的平衡交叉熵损失,因为它的性能更高,如 下所述:
-
L s = 1 − 2 ∑ x s x s x ∗ ∑ x s x + ∑ x s x ∗ L_s=1-\frac{2\sum_xs_xs^*_x}{\sum_xs_x+\sum_xs^*_x} Ls=1−∑xsx+∑xsx∗2∑xsxsx∗
-
其中 sx 和 s∗x 分别是预测得分和真实得分。对于几何损失,我们采用 EAST 中的交并比 (IoU) 损失和旋转角度损失:
-
L g = L i o u + λ a L a L i o u = 1 Ω ∑ x ∈ Ω I o U ( R x , R x ∗ ) L a = ( 1 − c o s ( θ x , θ x ∗ ) ) , ( 6 ) L_g=L_{iou}+\lambda_aL_a\\ L_{iou}=\frac1Ω\sum_{x\inΩ}IoU(R_x,R_x^*)\\ L_a=(1-cos(\theta_x,\theta_x^*)),(6) Lg=Liou+λaLaLiou=Ω1x∈Ω∑IoU(Rx,Rx∗)La=(1−cos(θx,θx∗)),(6)
-
其中 Rx、R∗x、θx 和 θ ∗ x 分别为预测边界框、真实边界框、预测方向和真实方向。IoU 计算如下
-
I o U ( R x ; R x ∗ ) = R x ∩ R x ∗ R x ∪ R x ∗ IoU(R_x; R^∗ _x ) = \frac{R_x ∩ R^∗ _x} {R_x ∪ R^∗_x} IoU(Rx;Rx∗)=Rx∪Rx∗Rx∩Rx∗
-
在我们的实验中,权重λa设置为10。对于字符分类损失,我们使用了交叉熵损失:
-
L c = ∑ i = 0 c y i l o g ( f i ( x ) ) L_c =\sum ^c _{i=0} y_i log(f_i(x)) Lc=i=0∑cyilog(fi(x))
-
其中 c 是可能的不同字符的数量,fi(x) 是图像样本 x 的类别 i 的网络输出,yi 是 one hot 的真实标签。
-
Implementation details
-
对于 MobileNetV2 主干,我们加载了在 ImageNet 数据集 上预训练的权重,然后在 MRZ 数据集上进行微调。为了训练 MRZSpotter(粗略),我们通过在 [-180◦ , 180◦ ] 范围内随机旋转图像并随机填充黑色边框来扩充数据集,以使新图像高度在原始图像高度的 1-2 倍范围内。我们还应用了随机裁剪图像,但约束条件是保持 MRZ 区域完整。为了训练 MRZSpotter(精细),我们通过相对于直立位置在 [-20◦ , 20◦ ] 范围内随机旋转图像来扩充数据集。我们发现确保 MRZSpotter(精细)的旋转角度较小非常重要。
-
然后,我们裁剪图像,使裁剪区域为正方形,MRZ 区域大致位于图像中心,左右边界随机选择为 MRZ 区域宽度的 0.05-0.25 倍。对于 MRZSpotter(粗)和 MRZSpotter(精细),我们使用 Adam 优化器 [24] 对模型进行了 120 个时期的训练,初始学习率为 0.0001,β1 = 0:9 和 β2 = 0:999。在 60 个时期时,学习率降低了 10 倍。批量大小选择为 6。使用单个 GeForce RTX 2070 显卡对模型进行训练。训练 MRZSpotter(粗)和 MRZSpotter(精细)的时间约为 1 天,因此训练整个模型总共需要 2 天。 MRZSpotter(精细)和 MRZSpotter(粗略)合计,MRZNet 有 28.9M 个参数。相比之下,类似的深度学习方法 CharNet 和 FOTS 分别有 89.2M 和 35.0M 个参数。
Experimental evaluation
- 在本节中,我们评估了 MRZNet 的性能。 我们还报告了消融研究的结果,以探索我们的设计选择的影响。
Dataset
- 我们在包含 4820 张护照/签证图像的数据集上评估了我们的算法。该数据集包括来自 85 个签发国的 2687 张护照图像和 2133 张签证图像。签证图像均为美国签发的签证,其 MRZ 为 2 行,每行 44 个字符。表 1 总结了不同国家的数据分布。该数据集包含现实世界图像,这些图像由扫描仪扫描或使用智能手机相机拍摄并由客户上传到我们的数据库。它可能包含透视失真、缩放、照明和分辨率变化,甚至运动模糊。它反映了我们每天遇到的现实世界图像。这些图像中的每一张都包含一本护照或签证。
-
-
表 1:我们的 MRZ 数据集在签发国的分布情况
-
- 我们使用 VGG 图像注释器 手动注释了所有图像的真实边界框和 MRZ 文本。除护照和签证之外的文本文档出现在图像中是很常见的,因此使用此数据集进行训练可以让我们的模型忽略非 MRZ 文本区域。我们使用 3482 张进行训练,723 张进行验证,615 张进行测试。我们还在公开可用的 MRZ 数据集 MIDV-500 [Midv-500: a dataset for identity document analysis and recognition on mobile devices in video stream] 和 synthetMRZ [Real-time Detection and Recognition of Machine-Readable Zones with Mobile Devices] 上测试了我们的方法。对于 MIDV-500,我们使用了包含 MRZ 区域的护照图像。 我们删除了 MRZ 区域不完整的图像。这样就得到了 3335 张测试图像。对于 synthetMRZ,我们随机选择了 17113 张图像。对于 MIDV-500 和 synthetMRZ,我们只包括 MRZ 区域采用最常见格式的图像,每行包含两行文本,每行 44 个字符。MIDV-500 和 synthetMRZ 数据集的图像文件路径可根据要求提供。
Comparison with existing solution
-
我们将我们的 MRZNet 与现有的 MRZ 识别解决方案进行了比较:1) 基于 Tesseract OCR 的 PassportEye 、2) MRZ-Detection [GitHub - image-js/mrz-detection: Detect Machine Readable Zones (MRZ) in images of identity documents] 和 3) UltimateMRZ [Visual Geometry Group - University of Oxford],一种基于 LSTM 的深度学习商业解决方案。我们还将其与基于端到端神经网络的文本识别方法 MaskTextSpotter 、基于 EAST 的 TextSpotter 和 CharNet 进行了比较。对于这些方法,我们从官方实现中下载了在 ICDAR2015 上训练的代码和权重。
-
从表 2、表 3 和表 4 可以看出,我们的 MRZNet 的表现远超三个比较 MRZ 检测模型以及其他基于深度学习的端到端文本检索模型。在表 2、表 3 和表 4 中,对于 MRZNet、PassportEye、MRZ-Detection 和 UltimateMRZ,检测率定义为 MRZ 字符识别准确率高于 50% 的图像比例,因为 SyntheticMRZ 数据集的 GT 边界框不可用,并且因为 PassportEye 和 MRZdetection 不输出预测的边界框。
-
-
表 2:MRZNet 和其他解决方案在测试集上的 MRZ 检测和字符识别(以 macro-f1 分数表示)结果。其中标识符 a 表示识别率基于免费版本中 88 个字符中 76 个字符的平均值
-
-
表 3:MRZNet 和其他解决方案在 MIDV-500 MRZ 数据集 上的 MRZ 检测和字符识别(以 macro-f1 分数计算)结果
-
-
表 4:MRZNet 和其他解决方案在 SyntheticMRZ 数据集上的 MRZ 检测和字符识别(宏 f1 分数)结果。对于 TextSpotter、MaskTextSpotter 和 CharNet,由于缺少 GT 边界框标签,无法生成结果
-
-
对于这三种基于深度学习的方法,一张图片的 MRZ 字符识别准确率高于 50% 的情况很少见,因此,如果基于 GT 边界框在 MRZ 区域中找到文本框,我们就认为检测成功。图 5 展示了各种基于深度学习的方法的文本检测结果示例。
-
-
图 5:端到端深度学习方法的 MRZ 识别结果。从上到下依次为:TextSpotter、MaskTextSpotter、CharNet 和 MRZNet
-
-
除了这些方法之外,Hartl 等人 在 SyntheticMRZ 数据集上实现了 98.6% 的字符识别率。 然而,他们的 MRZ 检测率仅为 56.1%(单帧)和 88.2%(5 帧),而我们在 SyntheticMRZ 数据集上的单帧 MRZ 检测率为 88.66%。这种巨大的性能差距的一个可能解释是,大多数现有算法依赖于传统的图像处理技术或一般 OCR 的输出,而我们的方法采用卷积神经网络作为特征提取器进行端到端检测和识别。此外,MRZNet 专门设计用于处理 MRZ 检测和识别,其假设目标为两行,每行 44 个字符,而文献中提出的端到端场景文本检测器是为任意长度的文本行设计的。我们还在表 5 中报告了所有方法的运行时间
-
-
表 5:我们测试集上的识别速度比较(平均值±标准差)。GPU:单个 GeForce RTX 3090;CPU:Intel® Xeon® Gold 5220R
-
Ablation Study
- 我们进行了消融研究以评估两阶段模型和 ASPP 层的有效性,结果报告于表 6 和表 7 中。从表 6 可以推断,仅使用 MRZSpotter(粗略)将导致较差的 MRZ 文本识别准确率(最佳结果是 67.87% 的宏 f1 分数)。主要原因是输入图像的分辨率低。
-
-
表 6:MRZSpotter 验证集的结果(粗略)。我们展示了边界框检测 IOU 和 MRZ 文本识别宏 F1 分数随 ASPP 层数变化的情况
-
- 然而,我们还发现缩小和框旋转角度范围是一个重要因素,因为增加 MRZSpotter (fine) 的数据增强旋转角度会导致更差的准确性。在 MRZSpotter (coarse) 中添加单个 ASPP 层可将 MRZ 文本识别性能从 56.56% 提高到 67.87%。然而,边界框定位精度从 0.8701 下降到 0.8508 IoU。 考虑到 MRZSpotter (coarse) 的目标是定位,我们没有在 MRZSpotter (coarse) 的最终模型中包含任何 ASPP 层。从表 7 可以看出,在 MRZSpotter (coarse) 之后使用 MRZSpotter (fine) 可以大大提高 MRZ 识别精度。
-
-
表 7:MRZSpotter 验证集的结果(精细)。我们展示了边界框检测 IOU 和 MRZ 文本识别宏 F1 分数随 ASPP 层数变化的情况
-
- 增加一层 ASPP 可将 MRZ 文本识别准确率从 98.40% 提高到 98.91%。通过堆叠 3 个 ASPP 层,准确率进一步提高到 99.21%。这些结果证明了所提出的两阶段模型和 ASPP 层的影响。在表 8 中,我们比较了得分图的不同损失函数。从结果可以看出,我们的方法采用的骰子损失优于 EAST 采用的平衡交叉熵损失。
-
-
表 8:MRZSpotter 验证集上的结果(精细)。我们比较了 EAST 采用的得分图平衡交叉熵损失和我们研究中采用的骰子损失的结果
-
Conclusion
- 在本研究中,我们提出了 MRZNet,这是一个专门为定位和识别护照和签证图像中的 MRZ 文本而设计的框架。采用了一种新颖的两阶段模型流程,以便 MRZNet 可以处理高分辨率图像中不同大小的护照/签证图像。我们提出了 MRZSpotter,这是一个用于检测和识别 MRZ 文本的端到端网络。通过堆叠多层 ASPP,我们增加了模型的感受野并提高了 MRZ 文本识别准确率。实验评估证明了我们的方法与现有的最先进模型相比的有效性。未来可能的研究方向包括:1) 在框架中添加一个去扭曲组件,使管道对弯曲文本行扭曲的护照图像具有鲁棒性;2) 修改单字符级边界框检测和识别的架构,以进一步提高管道的整体鲁棒性;3) 评估我们的模型对 MRZ 区域被烟雾、水/泥、墨水或其他瑕疵弄脏的护照/签证的性能。