[文献总结]QueryInst

1.背景与贡献

在这里插入图片描述

背景:目标检测上query based方法的成功,使得将query检测框架应用于实例分割也是可以实现的。
问题:目前Cascade Mask R-CNN 、 HTC这类non-query范例如果直接放到以query为基准的检测器下是十分效率低下的。/但直接将query based应用于Cascade Mask R-CNN 以及HTC等SOTA non query paradigm中是inefficient的。
解决方法:在这篇文章中作者提出了QueryInst,基于query的实例分割,通过在动态mask heads上并行监督驱动。核心的思想是利用在不同stages的queries的内在intrinsic一对一对应联系,即mask RoI feature和object queries在同一阶段的一对一联系。
贡献

  • 一种新的思路,在基于query的端到端检测框架中使用动态的mask heads
  • 一种多任务结合task-joint paradigm,联合synergy 目标检测和实例分割任务。建立了基于查询的目标检测和实例分割的任务联合范式
  • 在相同的跟踪方法下,我们的方法比MaskTrack R-CNN [57]和sipsmask-VIS[6]有很大的优势。

2.使用的方法

在这里插入图片描述

  1. 基于查询检测器:
    给定上一阶段的bbox预测结果和object query,首先通过ROI Align操作从FPN特征图提取bbox特征 (B,N,256,7,7)
    随后利用multi-head self-attention计算transformed object query
    随后利用object query和bbox feature之间的动态卷积得到增强后的bbox feature和object query
    紧接着在其基础上进行bbox预测和分类。
  2. 图片中文章来自实例分割新作——Instances as Queries虽然我现在看不懂但是我一定努力把它看懂(^^ゞ
    在这里插入图片描述在这里插入图片描述

3. 效果

  1. COCO-test-dev的主要结果。主要比较了的:
      i.on COCO test-dev
      ii.on Cityscapes val (APvalcolumn) and test (remain columns) split在Cityscapes上val(APvalcolumn)和test(remain columns)拆分
      iii.on YouTube-VIS val set
    在这里插入图片描述
  2. 还透露出了在内置方面的优化,查询列表的默认实例…最后用了d
    在这里插入图片描述
  3. Effects of DynConv
    在这里插入图片描述
    第一行显示直接从FPN提取的掩码特征xmaskd。第二行显示掩码特性xmask∗通过DynConvmask中的查询增强。最后一行是地面真相实例。结果表明,通过查询增强的掩模特征可以得到更真实、更准确的细节信息,并携带更多的实例信息。
  4. QueryInst和HTC的训练时间比较。
    在这里插入图片描述在这里插入图片描述
    所有模型均以ResNet-50-FPN[23,27]为骨干,采用3×1的训练计划(∼ 36个时代)在8个NVIDIA V100 GPU上(每个GPU 2个图像)。queryist在获得更好的性能的同时需要更少的训练时间。

猜你喜欢

转载自blog.csdn.net/weixin_44986601/article/details/119460380