ICnet实时场景分割网络

本文出自ECCV2018，腾讯优图实验室和香港中文大学汤晓鸥教授团队笔下，是一篇顶会的论文。论文的应用场景应该是无人驾驶这一块。

网络细节

ICnet的网络分为三个分支，Lowest、medium、high resolution Branch。

在此定义图片的初始化输入大小为 H x W。

Lowest resolution branch

低分辨率分支使用原图片的 1/4大小作为输入，1/32大小作为输出。
这一部分网络基于金字塔池化、FCN结构，使用空洞卷积，并且在残差模块的基础上设计阶段 4和阶段 5的空洞率为 2、4.所以能够得到输入大小的1/8。金字塔池化后，图像的空间尺寸变成 C x H/32 x W/32 ，后接减少用于通道维度的C‘ x 1 x 1核的卷积层，C’ 《 C, 最终得到的结果为 C‘ x H/32 x W/32。
详细见图1！！

Medium resolution branch

中分辨率分支使用原图的1/2 大小作为输入，1/16 大小作为输出。
这部分的网络可分解为三个步骤，每一步都使用rate = 2 的下采样，最终形成相比较输入8倍的下采样，结果为 H/16 x W/16。相比较低分辨率分支，这个水平的细节恢复是有重要意义的。因此，在这两个分支上的权重核下采样的步骤是共享的。以PSPnet50为例，17层的卷积层作为第一步三个stage（ 1、2、3）是共享权重的，然后在中间分支的以二倍的大小压缩，喂给剩下的顶部分支，（这个应该是以分辨率来分的）。最后，将得到的1/16大小的分支输出与来自低分辨率分支的1/32输出进行多尺度特征融合，得到本分支的目标 C x H/16 x W/16。

High resolution branch

看完上面两部分的内容，这里就好理解了。高分辨率分支主要的工作就是将来自低、中分辨率分支的结果进行融合，然后通过三次上采样得到最终的分割结果（大小为1/4 ）-- 与之配套训练的各种大小的ground truth就不再赘述了。在训练的时候是如此，而在测试阶段，还要经过一次上采样（直接对1/4 大小的图片进行插值恢复到与原图像大小一致）才能得到最终的分割结果。
论文图片，三分支网络

与其他网络结构的结合结果

ICnet能够用于更多不同的场合，这也说明他的generation。通过与deeplabv3结合，ICnet能够提升五倍的速度且准确率不下降！！

结果展示

效果图一

总结

这是我看到第一篇ECCV的论文，很是简洁明了，这等写作手法可以借鉴！