论文笔记:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and......

1 摘要

本文提出了一种用于语义分割的DeepLab系统,主要有三大贡献:① 使用“空洞卷积”代替传统的普通卷积;② 提出空洞空间金字塔池化(ASPP)有效地解决图像多尺度问题;③ 使用条件随机场(CRF)对特征图进行后处理,解决了图像边界定位,分割不准确的问题。DeepLab系统结合DCNN在PASCAL VOC-2012语义分割任务中达到当时最好的效果,在其它的三个数据集:PASCAL-Context,PASCAL-Person-Part,Cityspaces也有很好的表现。

2 亮点

2.1 空洞卷积

在DCNN中,由于需要提高卷积核的感受野以便在每次滑动窗口卷积的时候得到更加丰富的图像语义信息以及语义联系,通常需要对图像进行反复池化和卷积得到一个较小特征图。但是在进行池化的过程中,一些图像的细节信息可能会被池化掉,但是为了提高卷积的感受野同时减少参数,又必须进行池化操作;为了弥补池化带来的信息的丢失,在FCN、U-Net等网络中通过把池化前的特征图与上采样以后得到的特征图进行融合以恢复一些丢失的信息。本文作者想到一个两全其美的办法,就是使用一个叫空洞卷积的东西去代替普通卷积,能够以同样的参数获得更大感受野,每次滑动窗口能整合更多的图像语义信息或者说上下文信息。如下图:
在这里插入图片描述
可见上图中下面移动的为卷积核带有3x3的填充数字,但卷积核不是全填充的,而是间隔填充,那么相对于一个3x3的全填充,间隔填充就能获得更佳大的感受野,同时进行卷积后特征图变小了,也就不需要池化层了,也就是说同样的参数,使用空洞卷积能够获得更大的感受野。空洞卷积更佳详细的介绍可以参考以下这篇博客:

空洞卷积的理解

下图为相同参数的下采样+卷积+上采样和空洞卷积对比的效果图:
在这里插入图片描述
可以直观地观察到,经过下采样+卷积+上采样所产生的热度图是稀疏的,而直接通过空洞卷积产生的热度图相对来说较为稠密,这说明经过空洞卷积后产生的特征图细节信息更多。

2.2 空洞空间金字塔池化(ASPP)

多尺度问题也是语义分割中一个重要的问题,多尺度问题可以理解为在一张图片中近处有一个人和远处一辆车,直接通过CNN提取特征获得的是全局特征,而单纯地截取车辆部分放大至与原图相同的尺寸并且在其基础上提取特征,这就是一个局部特征。多尺度就是在保证全局特征的基础上要保证局部特征的不丢失,特征图上既有全局特征又有局部特征。本文提出ASPP来解决多尺度问题。其基本思路是:针对一张图片,同时使用多个不同空洞率的空洞卷积核,将得到的所有结果进行融合。如下图。
在这里插入图片描述
输入的特征图,分别采用空洞率为:6,12,18,24的空洞卷积核,而空洞率越大就越能体现全局特征,空洞率越小就能够保证局部的细节特征,最终进行融合能够同时获得全局特征和局部特征。如下图为DeepLab-ASPP使用多尺度空洞卷积核的部分结构图。
在这里插入图片描述

2.3 条件随机场(CRF)

使用CRF进行图像的后处理能够使得图像的边界更加明显,其效果如下图。
在这里插入图片描述
直接经过DCNN输出的特征图跟分割的label效果相比还是有一定的区别的,但是经过CRF进行后处理以后跟label更加接近。有关CRF的更详细信息可以参考这两篇博客(数学韵味很强,而且用于NLP的较多):

条件随机场(CRF)的理解
条件随机场是如何应用于图像分割?

2.4 实现过程

DeepLab在DCNN中完整的实现过程如下图:
在这里插入图片描述
输入图像经过带空洞卷积的DCNN得到一个缩小的特征图,然后经过一个双线性插值法的上采样恢复图像尺寸大小,最后经过CRF进行图像后处理输出结果。

3 部分效果

在这里插入图片描述
上图不同结构在PASCAL VOC 2012测试集的平均交并比的表现,可以看到ResNet-101结构+DeepLab-CRF系统得到最好的效果。

4 结论

本文提出的DeepLab系统成功解决了三大问题:① 特征图在池化过程中变得稀疏问题(使用空洞卷积);② 多尺度问题(使用ASPP);③ 由于DCNN的不变性存在特征图的定位精度问题(使用CRF进行图像后处理)。DeepLab-CRF与FCN一样,是一种方法技巧,可以应用于VGG16、ResNet-101等结构。

5 参考文献

(1)DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
(2)空洞卷积的理解
(3)多尺度的理解
(4)条件随机场(CRF)的理解
(5)条件随机场是如何应用于图像分割?

发布了24 篇原创文章 · 获赞 27 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/gyyu32g/article/details/104327418