一、文字检测
(1)方法
方法主要是基于EAST和Refinenet进行的。首先,图像经过Resnet50得到不同层的特征,然后通过Refinet的特征融合方式融合多层特征,接着,经过多任务回归预测每个特征图上的点的分数和RBOX,最后,在多尺寸检测算法里加了过滤机制。
方法流程图如下:
(2)涉及到的点
1.EAST
A.网络结构图
B.PVANet和C.Relu
C.Resnet50
残差网络详细原理见:https://www.jianshu.com/p/e58437f39f65 和 https://my.oschina.net/u/876354/blog/1622896
D.Loss
交叉熵损失方面的原理可参考:https://blog.csdn.net/u014313009/article/details/51043064和 https://blog.csdn.net/chaipp0607/article/details/73392175
E.说明
EAST是一个单阶段的快速而精准的场景文字检测框架。它主要利用一个全卷积模型来产生单词或者文本线级别的密集预测,相比于以前的复杂场景文字检测算法减少了许多冗余操作。对于文本的预测结果,既可以是旋转的矩形表示,也可以是任意的四边型表示,最后再经过非极大值抑制(NMS)的处理然后输出结果。整个框架主要借鉴DenseBox的网络框架,把图片输入全卷积网络当中,然后对文本区域进行多通道的像素级别的预测。其中一个通道用来输出文本的置信分数,而另外的通道则用来输出文本的几何坐标信息。
网络基础结构如图所示,首先,图像经过多层的全卷积网络(如左边黄色区域所示),即基础网络,得到不同深度的卷积特征();接着,通过反卷积(unpool)、不同的卷积、合并等操作,多层的卷积特征融合成在一起();最后,网络根据任务的不同,输出对像素点文本概率置信度的预测以及文本边框的预测。
2.Refinet
A.网络结构图
B.说明
目前深度卷积网络在目标识别和图像分割等问题上表现突出,但频繁的下采样丢失了原图像的信息。RefineNet网络,使用残差链接显式将各个下采样层和后面的网络层结合在一起。这样网络高层的语义特征可以直接从底层的卷积层中获得精炼。一个RefineNet单元使用残差链接和identity映射,对于端对端的训练很有效。RefineNet还引入了一种链接残差池化,它可以捕获大量背景信息。
如图所示,一样是将不同大小的特征图融合在一起,RefineNet的融合方式会比较复杂。RefineNet具体结构如图2.2所示,网络可以融合多个不同大小的特征图。首先,特征图先经过俩个卷积单元块(b);接着小的特征图经上采样操作获得与大特征图一样的大小,最终求和得到一个特征图(c);最后,特征图会经过一个链式残差池化(d)操纵,其结构类似于残差网络的快捷链接,只不过经过的不是卷积操作,而是池化操作。作者称,这样的操作有利于网络识别出属于背景的像素点,这将有利于文字检测中判定像素属性。我们将图1中原本简单的特征融合,替换成RefineNet。
2.代码
3.文字检测其他方法
A.SSD
B.YOLO
C.Faster RCNN
D.FPN+Defomer
4.总结
二、文本语种识别
1.方法
2.代码
3.总结
三、招牌分类
1.方法
2.代码
3.总结