论文笔记:ParseNet: Looking Wider to See Better

1 摘要

针对FCN的实际感受野比理论感受野小很多的问题——按道理VGG+FCN的fc7的感受野是404×404,可实际上的FCN的fc7的感受野却并没有这么大,本文提出一种ParseNet网络,通过融合全局信息来弥补实际感受野的不足。

2 亮点

2.1 全局池化层

作者发现,使用了FCN的VGG网络在fc7的感受野应当是404×404的,为了测试fc7实际的感受野的大小,作者对原图滑动了一个窗口,将得到图叠加噪音信息,查看fc7的响应,这样就可以看到fc7的实际感受野了,如下图:
在这里插入图片描述
(a)为原始图像,(b)为特征相应的热度图,(c)为滑动窗口以后fc7能观察到的理论感受野,(d)为fc7的实际的感受野。可以看到实际感受野仅仅为原图的1/4不到,比实际的感受野小了很多,所以在进行特征提取的时候有可能就削弱了语义的全局联系,而有一些文章中使用的是CRF对结果进行后处理,虽然这样也能获得不错的效果,但是CRF等后处理方式计算复杂,会消耗很多计算资源。为了解决这个问题,作者提出一个全局池化层的概念。就是在fc7之前的一层就进行一个平均全局池化层(对浅层的特征图进行全局池化可比较难得到全局信息),获得全局信息然后再将池化后的全局信息与直接经过CNN得到的信息进行融合(特征通道拼接)。如下图:
在这里插入图片描述
同一个特征图分成两条分支:一条为生产全局特征信息,另一条由CNN主干线生产的特征图信息,最后两条分支进行合并。ParseNet这种方式相对CRF简单而且准确率跟CRF处理的效果差不多。(有人可能说两者融合更好,但是文章《Are spatial and global constraints really necessary for segmentation?》指出,如果使用了特征拼接去处理特征图,就相当于是一个平滑的过程了,没有必要再去使用CRF平滑处理了。)

2.2 L2归一化层

在融合问题上,作者提出有一个“早融合”——就是在分类之前进行全局信息的融合。一个“后融合”,就是主线和支线分别分类得到两个分数再进行两个分数的加权。经过作者的试验,如果使用了L2归一化层,这早融合和晚融合两者并没很大的差别。因为在特征融合的时候,不同的层的特征有着不同的尺度大小,而可能会由于特征尺度大小相差悬殊,而使得效果变差,如下图:
在这里插入图片描述
上图中不同的颜色代表不同的层的特征,而横坐标表示尺度信息,纵坐标表示特征的权重信息。蓝色和青色的特征尺度是一个合适的尺度比例,但是红色和绿色的尺度比前者大两个数量级,直接进行融合,由于尺度的不同会使得准确率下降。因此,在融合特征之前, 将L2范数应用于特征图的每个像素,而非整个图。
在这里插入图片描述在这里插入图片描述
在反向传播的时候并增加一个γ参数作为尺度大小,让其在反向传播的时候能够自动学习尺度大小进行归一化:
在这里插入图片描述

2.3 ParseNet总体结构

ParseNet通过引入了全局池化层进行了特征的融合,其整体结构如下图:
在这里插入图片描述
特征图一方面通过主分支进行L2归一化,另一方面进行一个平均池化层得到全局特征图,再进行L2归一化,进行一个上池化得到放大后的特征图与主分支得到的特征图进行拼接。经过L2归一化以后融合了全局语义信息使得原本较小的实际感受野获得了更多的全局信息,效果更好。

3 部分效果图

在这里插入图片描述上图显示的是FCN和ParseNet的对比,可能由于感受野的问题,只看到了猫的上半部分,有一小下部分没有看到,所以造成了下半部分分类成其它。而ParseNet则能比较好的处理这个图片。
在这里插入图片描述
上图中,ParseNet Baseline为没有添加全局语义信息的,而ParseNet为添加了语义信息的,可见添加了全局语义信息以后得到的效果类似于使用了CRF、RNN等后处理方式得到的效果。
在这里插入图片描述
这个上图,则表明了融合全局信息有时候使得效果变差了。

4 结论

本文提出的全局特征图是一个研究多尺度和感受野的问题,而添加了全局信息补充了实际感受野的缺失这个思路也为后面很多文章所用。此外,文章提到的使用这种方法达到的效果和使用CRF等后处理的方式得到的效果差不多,但是CRF等后处理太过于复杂而消耗很多计算资源,而本文却能以对网络较简单的修改而达到一个较好的效果。

5 参考文献

(1)ParseNet: Looking Wider to See Better
(2)【阅读笔记】《ParseNet: Looking Wider to See Better》

发布了24 篇原创文章 · 获赞 27 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/gyyu32g/article/details/104387176