ICnet实时场景分割网络

本文出自ECCV2018,腾讯优图实验室和香港中文大学汤晓鸥教授团队笔下,是一篇顶会的论文。论文的应用场景应该是无人驾驶这一块。

网络细节

ICnet的网络分为三个分支,Lowest、medium、high resolution Branch。

在此定义图片的初始化输入大小为 H x W。

Lowest resolution branch

低分辨率分支使用原图片的 1/4大小作为输入,1/32大小作为输出。
这一部分网络基于金字塔池化、FCN结构,使用空洞卷积,并且在残差模块的基础上设计阶段 4和阶段 5的空洞率为 2、4.所以能够得到输入大小的1/8。金字塔池化后,图像的空间尺寸变成 C x H/32 x W/32 ,后接减少用于通道维度的C‘ x 1 x 1核的卷积层,C’ 《 C, 最终得到的结果为 C‘ x H/32 x W/32。
详细见图1!!

Medium resolution branch

中分辨率分支使用原图的1/2 大小作为输入,1/16 大小作为输出。
这部分的网络可分解为三个步骤,每一步都使用rate = 2 的下采样,最终形成相比较输入8倍的下采样,结果为 H/16 x W/16。相比较低分辨率分支,这个水平的细节恢复是有重要意义的。因此,在这两个分支上的权重核下采样的步骤是共享的。以PSPnet50为例,17层的卷积层作为第一步三个stage( 1、2、3)是共享权重的,然后在中间分支的以二倍的大小压缩,喂给剩下的顶部分支,(这个应该是以分辨率来分的)。最后,将得到的1/16大小的分支输出与来自低分辨率分支的1/32输出进行多尺度特征融合,得到本分支的目标 C x H/16 x W/16。

High resolution branch

看完上面两部分的内容,这里就好理解了。高分辨率分支主要的工作就是将来自低、中分辨率分支的结果进行融合,然后通过三次上采样得到最终的分割结果(大小为1/4 )-- 与之配套训练的各种大小的ground truth就不再赘述了。在训练的时候是如此,而在测试阶段,还要经过一次上采样(直接对1/4 大小的图片进行插值恢复到与原图像大小一致)才能得到最终的分割结果。
论文图片,三分支网络

与其他网络结构的结合结果

ICnet能够用于更多不同的场合,这也说明他的generation。通过与deeplabv3结合,ICnet能够提升五倍的速度且准确率不下降!!

结果展示

效果图一

效果

总结

这是我看到第一篇ECCV的论文,很是简洁明了,这等写作手法可以借鉴!

猜你喜欢

转载自blog.csdn.net/TTLoveYuYu/article/details/114300728