DeepLabv3+ 用于语义图像分割的带空洞可分离卷积的编解码器
摘要
空间金字塔池化模型或编解码器结构用于语义分割的深度神经网络中。前者通过滤波器或池化操作在多个rate、多个有效视野上探索输入特征可以编码多尺度上下文信息,而后者通过逐步恢复空间信息可以捕获清晰的物体边界。我们在本文中综合利用这两种方法的优点。具体来说,本文提出的DeepLabv3+是在DeepLabv3的基础上添加一个简单有效的解码器模块,用于改善分割结果,尤其是物体边界。我们还进一步研究了Xception模型,并把深度可分离卷积用于空洞空间金字塔池化和解码器模块,产生一个更快更强的编解码器网络。
1引言
2相关工作
3方法
这部分我们简要介绍空洞卷积和深度可分离卷积。然后回顾DeepLabv3,它作为我们的编码器模块。最后讨论添加在编码器后的解码器模块。我们还提出了一个修改的Xception模型,它可以增加速度并提升效果。
3.1带空洞卷积的编解码器
空洞卷积:空洞卷积是一个强大的工具,它使我们能显示地控制DCNN计算出的特征的分辨率,还使我们能调节滤波器的感受野以便获取多尺度信息,是普通的卷积操作更加一般化。拿二维信号来说,对输出特征图上的每一个位置和卷积滤波器,应用到输入特征图上的空洞卷积可以表示为: (1)。其中空洞率决定我们对输入信号采样的步长,详见DeepLabv2。普通卷积是的特例。改变可以自适应地修改滤波器的感受野。
深度可分离卷积:深度可分离卷积把普通卷积分解成深度卷积和点卷积(如的卷积),大大降低了计算复杂度。特别是深度卷积实现了一个和各输入通道无关的空间卷积,而点卷积用于合并深度卷积的输出。在TF实现的深度可分离卷积中,深度卷积(如空间卷积)已经支持空洞卷积,如图3。本文中我们把这样的卷积称为空洞可分离卷积,我们发现在相同的表现下,和其它模型相比,空洞可分离卷积可以大大降低计算复杂度。
DeepLabv3作为编码器:
提出的解码器: