Dual Super-Resolution Learning for Semantic Segmentatio || CVPR2020

Dual Super-Resolution Learning for Semantic Segmentatio 用于语义分割的双超分辨率学习

Abstract:
当前的语义分割通常使用高分辨率输入来获得好的效果,但需要巨大的计算资源受设备的限制。**本文我们提出了一个简单灵活的 two-stream framework 方法,叫做 Dual Super-Resolution Learning (DSRL),在不引入额外算力消耗的情况下提升分割的准确性。方法由 3 部分组成:Semantic Segmentation Super-Resolution (SSSR), Single Image Super-Resolution (SISR) and Feature Affinity (FA) module,能够在低分辨率输入的情况下,保持高分辨率表示,同时降低了计算复杂度。**也可以应用到人体解析等其他任务,在 CityScapes 数据集miou提升2%,以较小的 FLOPs ,保持在 70% 的FLOPs。原论文作者代码:Code and models are available at https://github.com/wanglixilinx/DSRL.

Introduction:
语义分割中high-resolution representation十分重要。当前由两种主要的方法保持 high-resolution representation :一种是空洞卷积代替 stride conv ,例如 Deeplabs;另一种是结合自上而下的路径和横向连接产生 high-resolution representation ,例如Unet,但这都会损耗巨大的算力资源。此外,还是用高分辨率图像作为输入,进一步增加算力损耗。
在这里插入图片描述
本文我们提出 Dual Super-Resolution Learning (DSRL)包括:Semantic Segmentation Super-Resolution (SSSR), Single Image Super-Resolution (SISR) and Feature Affinity (FA) module。我们将超分辨率思想放入语义分割构建出 SSSR 分支,然后 SSSR 分支的 高分辨率特征进一步被增强通过 带有FA的SISR分支产生的细粒度结构表示。两分支共享同一个特征提取器,训练过程中重建监督对SISR分支进行了优化,在推理阶段可以将其从网络中自由删除,从而节省了开销。

模型结构;
在这里插入图片描述
SSSR:在原有语义分割的基础上,再加一个额外的上采样 module 生成最终预测,这个过程叫超分辨率语义分割 SSSR。例如输入是 512x1024, 将输出为 1024x2048 ,是原来的 2 倍。与目前大多数预测512×1024的掩模进行训练和测试(后处理阶段再缩放到1024×2048)的系统相比,我们的方法可以充分利用ground truth,避免预处理造成有效的标签信息损失。额外的上采样层一般是反卷积组成,然后是bn,relu。
在这里插入图片描述
SISR:
由于只依靠解码器不足以恢复高分辨率的语义特征。SISR的目的是通过低分辨率的输入构建高分辨率的图像这意味着 SISR 能在低分辨率的输入上重构图像的细粒度结构特征,这对语义分割是有帮助的
为了更好地理解,我们可视化了SSSR和SISR的特征:我们可以很容易地发现SISR包含了更完整的物体结构。虽然这些结构不明确地表示类别,但可以根据像素与像素或区域与区域的关系有效地进行分组。这些关系可以隐含地传递语义信息,从而有利于语义分割任务的完成。因此,我们使用SISR重新覆盖的高分辨率特征来指导SSSR的高分辨率表示的学习,这些细节可以通过内部像素之间的相关性或关系来建模。可以弥补译码器设计简单的不足。整个分支在原始图像的监督下进行训练,在推理阶段自由去除
在这里插入图片描述
FA:
由于SISR比SSSR包含更完整的结构信息,我们引入特征关联学习来指导SSSR学习高分辨率表示。由于存储开销大,我们在实际中将像素对的子样本设为1/8。此外,为了减少训练之间的差异所造成的不稳定特性分布SISR SSSR分支,我们添加一个特性反式模块的功能映射SSSR分行申请前足总损失,由一层1×1卷积BatchNorm和ReLU层紧随其后。
如式1所示,FA 学习SISR和SSSR分支之间的相似矩阵距离,其中相似矩阵如式2所示,主要描述像素之间的关系。p = 2 and q = 1代表L2,L1正则化.
在这里插入图片描述

LOss: w 1and w 2are set as 0.1 and 1.0,
在这里插入图片描述

理解:通过输入的低分辨率图像,来生成高分辨率用于指导语义分割增加准确率,并且推理时去除,从而几乎不会增加计算量。

猜你喜欢

转载自blog.csdn.net/qq_41997237/article/details/107242859