【ICCV2019】TensorMask:A Foundation for Dense Object Segmentation

【ICCV2019】TensorMask:A Foundation for Dense Object Segmentation

在这里插入图片描述

概要

目前(2019年前)基于密集网格式的滑动窗口目标检测器很流行也很成功(SSD,RetinaNet等),但是实例分割仍是由先检测再分割的Mask R-CNNR-CNN主导。本文提出了一个4D张量来代表预测的mask(其实就是将通道表示成一个固定大小区域的mask)。

  • 出发点:dense instance segmentation
  • 解决思路:developing effective representations for dense masks

结构

第三章看起来很复杂,据我的理解(若有错误还请指出),主要的就是两点。第一点就是特征的对齐,如下图所示。
在这里插入图片描述
左图这些五颜六色的小方框就是(y,x)点对应的通道特征,如果我们把通道reshape成VxU来代表这个中心点(y,x)点产生的mask,会有特征不对齐的问题,因为明明是这个点的特征,却用这个特征去表示周围点的mask特征不合适。所以就有了右图的对齐操作,这样这个点产生的特征对应了该点的mask特征。

第二点就是Tensor Bipyramid,提出这个是因为不同大小的特征图需要不同的窗口去产生mask,比如小的特征图,我们通常会预测大的物体,这时所需要的窗口要够大,而对于大的特征图,会预测较小的物体,此时我们需要的窗口要小。这里需要说明一下up_align2nat 操作,如下图所示:
在这里插入图片描述
这里的s其实就是stride(论文里用unit表示),假如现在的通道特征比目前的特征图更粗糙(对应到原图像上,意思就是预测出来的mask比本应预测的更粗糙),先用up_bilinear把通道变多,然后再进行一个对齐操作。

在这里插入图片描述
还有一个swap_align2nat操作,就是比up_align2nat多了一个subsample操作,这样可以实现“小特征图预测的mask数量更少“。

第四章介绍了各种head。
在这里插入图片描述
如果用a),说明每一层大物体和小物体都用相同的像素去预测。而b)可以保证mask和物体大小成正比。

实验

在这里插入图片描述

发布了86 篇原创文章 · 获赞 10 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/qq_36530992/article/details/105550885