文字检测与识别项目整理

一、文字检测

    (1)方法

         方法主要是基于EAST和Refinenet进行的。首先,图像经过Resnet50得到不同层的特征,然后通过Refinet的特征融合方式融合多层特征,接着,经过多任务回归预测每个特征图上的点的分数和RBOX,最后,在多尺寸检测算法里加了过滤机制。

         方法流程图如下:

             

   (2)涉及到的点

       1.EAST

           A.网络结构图

       

          B.PVANet和C.Relu

                    

         C.Resnet50

         残差网络详细原理见:https://www.jianshu.com/p/e58437f39f65https://my.oschina.net/u/876354/blog/1622896         

         D.Loss

           

       

        交叉熵损失方面的原理可参考:https://blog.csdn.net/u014313009/article/details/51043064https://blog.csdn.net/chaipp0607/article/details/73392175

        E.说明           

        EAST是一个单阶段的快速而精准的场景文字检测框架。它主要利用一个全卷积模型来产生单词或者文本线级别的密集预测,相比于以前的复杂场景文字检测算法减少了许多冗余操作。对于文本的预测结果,既可以是旋转的矩形表示,也可以是任意的四边型表示,最后再经过非极大值抑制(NMS)的处理然后输出结果。整个框架主要借鉴DenseBox的网络框架,把图片输入全卷积网络当中,然后对文本区域进行多通道的像素级别的预测。其中一个通道用来输出文本的置信分数,而另外的通道则用来输出文本的几何坐标信息。

       网络基础结构如图所示,首先,图像经过多层的全卷积网络(如左边黄色区域所示),即基础网络,得到不同深度的卷积特征);接着,通过反卷积(unpool)、不同的卷积、合并等操作,多层的卷积特征融合成在一起();最后,网络根据任务的不同,输出对像素点文本概率置信度的预测以及文本边框的预测。

      2.Refinet

      A.网络结构图

        

      B.说明     

      目前深度卷积网络在目标识别和图像分割等问题上表现突出,但频繁的下采样丢失了原图像的信息。RefineNet网络,使用残差链接显式将各个下采样层和后面的网络层结合在一起。这样网络高层的语义特征可以直接从底层的卷积层中获得精炼。一个RefineNet单元使用残差链接和identity映射,对于端对端的训练很有效。RefineNet还引入了一种链接残差池化,它可以捕获大量背景信息。

 

     如图所示,一样是将不同大小的特征图融合在一起,RefineNet的融合方式会比较复杂。RefineNet具体结构如图2.2所示,网络可以融合多个不同大小的特征图。首先,特征图先经过俩个卷积单元块(b);接着小的特征图经上采样操作获得与大特征图一样的大小,最终求和得到一个特征图(c);最后,特征图会经过一个链式残差池化(d)操纵,其结构类似于残差网络的快捷链接,只不过经过的不是卷积操作,而是池化操作。作者称,这样的操作有利于网络识别出属于背景的像素点,这将有利于文字检测中判定像素属性。我们将图1中原本简单的特征融合,替换成RefineNet

 

   2.代码

  

   3.文字检测其他方法

   A.SSD

   B.YOLO

   C.Faster RCNN

   D.FPN+Defomer

   4.总结

二、文本语种识别

   1.方法

   2.代码

   3.总结

三、招牌分类

   1.方法

   2.代码

   3.总结

猜你喜欢

转载自www.cnblogs.com/EstherLjy/p/9278314.html