Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network(利用像素聚合网络进行高效准确的任意形状文本检测)

PSENet V2昨日刚出,今天翻译学习以下。

  场景文本检测是场景文本阅读系统的重要一步,随着卷积神经网络的快速发展,场景文字检测也取得了巨大的进步。尽管如此,仍存在两个主要挑战,它们阻碍文字检测部署到现实世界的应用中。第一个问题是速度和准确性之间的平衡第二个是对任意形状的文本实例进行建模。最近,已经提出了一些方法来处理任意形状的文本检测,但是它们很少去考虑算法的运行时间和效率,这可能在实际应用环境中受到限制。在本文中,我们提出了一种高效且准确的任意形状文本检测器,称为 PSENet V2,它配备了低计算成本的分割模块和可学习的后处理方法。
  更具体地,分割模块由特征金字塔增强模块(Feature Pyramid Enhancement Module,FPEM)和特征融合模块(Feature Fusion Module,FFM)组成。FPEM 是一个可级联的 U 形模块,可以引入多级信息来指导更好的分割。FFM 可以将不同深度的 FPEM 给出的特征汇合到最终的分割特征中。可学习的后处理由像素聚合模块(Pixel Aggregation,PA)实现,其可以通过预测的相似性向量精确地聚合文本像素。几个标准基准测试的实验验证了所提出的 PSENet V2 的优越性。值得注意的是,我们的方法可以在 CTW1500 上以 84.2 FPS 实现 79.9%的 F-measure。据我们所知,PSENet V2 是第一种能够实时检测任意形状文本实例的方法。

Figure 1. The performance and speed on curved text dataset CTW1500. PAN-640 is 10.7% better than CTD+TLOC, and PAN-320 is 4 times faster than EAST.

1.介绍

前面的一些介绍省略,看PAN:

作者说提出一个任意形状的文本检测器,namely Pixel Aggression Network(像素聚合网络 ,PAN),可以平衡速度与性能。如图2所示,只有两步:1)通过分割网络预测文本区域, 内核和相似性向量. 2) 从预测的内核重建完整的文本实例. 为了实现高效性, 需要缩减这两个步骤的计算时间. 首先,分割需要轻量级骨干. 文中

猜你喜欢

转载自www.cnblogs.com/ariel-dreamland/p/11390144.html