Hybrid Task Cascade for Instance Segmentation 论文笔记

Title: Hybrid Task Cascade for Instance Segmentation (2019)

Link: Paper

Code: Github

Abstract

Cascade是一种经典而强大的体系结构,可提高各种任务的性能。 但是,如何将级联引入实例分割仍然是一个悬而未决的问题。 在探索更有效的方法时,我们发现成功进行实例分割级联的关键是充分利用检测与分割之间的相互关系。

本文提出一个新框架 Hybrid Task Cas- cade (HTC),特点如下:

  1. 与其在这两个任务上分别执行级联改进,不如将它们交织在一起以进行联合的多阶段处理;
  2. 它采用完全卷积的分支来提供空间上下文,这可以帮助区分硬前景和混乱背景。

总体而言,该框架可以逐步学习更多 discriminative features,同时在每个阶段将互补性特征整合在一起。

1. Introduction

实例分割可用于自动驾驶和视频监督(autonomous driving and video surveillance)。它的挑战有:视觉对象发生形变,背景杂乱使得物体实例难以隔离。为克服这些困难,我们需要一个能够抵抗外观变化的强大表示形式,同时,它需要捕获丰富的上下文信息,以从混乱的背景中区分出对象。

Cascade 是一种经典而强大的体系结构,它通过多阶段优化提高了各种任务的性能。 Cascade R-CNN 提出了一种用于目标检测的多阶段架构,并取得了可喜的成果。

尽管在检测任务上很有效,但将级联的思想整合到实例分割中并不容易。

其中一个重要原因是不同阶段的掩码分支之间的信息流不佳。 后期的遮罩分支仅受益于更好的局部边界框,而没有直接连接。

Mask branches in later stages only benefit from better localized bounding boxes, without direct connections.

为了弥合这一差距,我们提出了混合任务级联(HTC),这是一种新的用于实例分割的级联体系结构。关键思想是通过在每个阶段合并级联和多任务来改善信息流,并利用空间上下文来进一步提高准确性。

HTC易于实施,并且可以进行端到端的训练。

主要贡献:

  1. 提出了混合任务级联(HTC),它通过将检测和分割功能交织在一起,从而有效地将级联集成到实例分割中,以进行联合多阶段处理。 它在COCO测试开发和测试挑战方面达到了最先进的性能。
  2. 证明了空间上下文通过将前景对象与背景混乱区分开来,有利于实例分割。
  3. 对各种组件和设计进行了广泛的研究,这为对象检测和实例分割的进一步研究提供了参考。

2. Related Work

Instance Segmentation
实例分割是一项任务,用于在像素级别上定位图像中的感兴趣对象,其中分割后的对象通常由遮罩(mask)表示。 这个任务与对象检测和语义分割都密切相关。

因此,用于此任务的现有方法大致分为两类,即基于检测的和基于分割的(detection-based and segmentation-based)。

Detection-based methods resort to a conventional detector to generate bounding boxes or region proposals,and then predict the object masks within the bounding boxes. 基于检测的方法诉诸于常规检测器来生成边界框或区域提议,然后预测边界框内的对象蒙版

Segmentation-based methods, on the contrary, first obtains a pixel-level segmentation map over the image, and then identifies object instances therefrom. 相反,基于分割的方法首先获取图像上的像素级分割图,然后从中识别对象实例

Multi-stage Object Detection
目标检测的主流对象检测框架通常分为两种类型:单级检测器 single-stage detectors 和两级检测器 two- stage detectors。

近来,具有多个阶段的检测框架作为用于对象检测的越来越流行的范例而出现。

本文提出的框架也采用了级联结构,但在几个重要方面有所不同。

  1. 在每个阶段将包括检测,掩码预测和语义分割在内的多个任务组合在一起,从而形成一个联合的多阶段处理流水线。 这样,每个阶段的改进都得益于这些任务之间的相互关系。
  2. 上下文信息通过一个附加分支来进行填充分类,并添加了一个方向路径以允许跨阶段的直接信息流。

3. Hybrid Task Cascade

在这项工作中,我们提出了混合任务级联(HTC),一种实例分割的新框架。
与现有框架相比,它在以下几个方面具有独特性:
(1)交错边界框回归和蒙版预测,而不是并行执行。
(2)通过将前一阶段的遮罩特征提供给当前阶段的遮罩功能,它合并了一条直接路径以加强遮罩分支之间的信息流。
(3)它的目的是通过添加一个附加的语义分段分支并将其与box和mask分支融合来展示更多的上下文信息。 总体而言,对框架体系结构的这些更改不仅在跨阶段而且在任务之间也有效地改善了信息流。

3.1. Multi-task Cascade

框架的变化如下图所示:
在这里插入图片描述
Cascade Mask R-CNN
我们从Mask R-CNN和Cascade R-CNN的直接组合开始,表示为Cascade Mask R-CNN
Interleaved Execution
上述设计的一个缺点是,在训练期间并行执行每个阶段的两个分支,这两个分支都将前一阶段的边界框预测作为输入。 因此,两个分支在一个阶段中不会直接交互

针对此问题,我们探索了一种改进的设计,该设计将盒形和蒙版分支交错,如图1b所示。
Mask Information Flow
上述设计中,在不同阶段的遮罩分支之间没有直接的信息流,这阻止了遮罩预测准确性的进一步提高。

Cascade R-CNN 中,重要的一点是Box分支的输入功能由前级和主干的输出共同确定。

按照相似的原理,我们通过将前一阶段的遮罩特征馈送到当前阶段,从而在遮罩分支之间引入信息流,如图1c所示。
Implementation
在这里插入图片描述

3.2. Spatial Contexts from Segmentation

为了进一步帮助区分前景和混乱的背景,我们使用空间上下文作为有效提示。 我们添加了一个额外的分支来预测整个图像的每像素语义分割,它采用了完全卷积的架构,并与其他分支共同训练,如图1d所示。
Semantic Segmentation Branch
具体来说,基于特征金字塔的输出来构造语义分割分支S。 对于语义分割,单个级别的功能可能无法提供足够的区分能力。 因此,我们的设计在多个层次上都包含了功能。 除了中级功能外,我们还将高级功能与全局信息相结合,将低级功能与局部信息相结合,以实现更好的功能表示。
在这里插入图片描述
Fusing Contexts Feature into Main Framework
众所周知,密切相关任务的联合训练可以改善特征表示并为原始任务带来性能提升。 在这里,我们建议将语义特征与框/遮罩特征融合,以允许不同分支之间进行更多交互。 通过这种方式,语义分支直接有助于对具有编码空间上下文的边界框和蒙版进行预测。

3.3. Learning

由于上述所有模块都是可区分的,因此可以以端到端的方式训练混合任务级联(HTC)。

4. Experiments

4.1. Datasets and Evaluation Metrics

Datasets COCO dataset
Evaluation Metrics Average Precision (AP) metric

4.2. Implementation Details

3-stage cascade
For fair comparison, Mask R-CNN and Cascade R-CNN are reimplemented with PyTorch and mmdetection.

16 GPUs

4.3. Benchmarking Results

HTC 与 state-of-the-art instance seg- mentation approaches 的比较。本文的HTC在不同骨干网上实现了持续改进,证明了其有效性。
在这里插入图片描述

4.4. Ablation Study

An ablation study typically refers to removing some “feature” of the model or algorithm, and seeing how that affects performance.
模型简化测试。看看取消掉一些模块后性能有没有影响。

Component-wise Analysis
在这里插入图片描述
首先,我们研究框架中主要组件的影响。 Table 2 中,“ Interleaved”表示bbox和mask分支的交错执行,“ Mask Info”表示mask分支信息流,“ Semantic”表示引入语义分段分支。

从表2中,我们可以了解到交错执行可以使掩码AP稍微提高0.2%。 掩码信息流有助于进一步提高0.6%,而语义分段分支则可以提高0.6%。

Effectiveness of Interleaved Branch Execution
在这里插入图片描述
在第3.1节中,我们设计了交错的分支执行方式,以便在训练期间从更新的包围盒中受益于mask分支。

为了研究此策略的有效性,我们将其与Mask R-CNN和Cascade Mask R-CNN上的常规并行执行管道进行了比较。

从表3可以看出,两种方法的交错执行均优于并行执行

Effectiveness of Mask Information Flow
在这里插入图片描述
我们研究引入的遮罩信息流如何通过比较各个阶段的性能来帮助进行遮罩预测。 (不涉及语义分割分支以排除可能的干扰)

从表4中,我们发现引入掩膜信息流可以大大改善第二阶段的掩膜AP
Effectiveness of Semantic Feature Fusion
在这里插入图片描述
我们通过引入语义分段分支来利用上下文特征,并融合不同分支的特征。 众所周知,多任务学习是有益的,这里我们研究语义特征融合的必要性。

我们训练了将语义特征与框或掩码或两个分支融合在一起的不同模型,结果如表5所示。

从结果来看将语义特征与box和mask分支相融合会带来0.4%的额外收益,这表明互补信息会增加box和mask分支的特征判别力
Influence of Loss Weight
在这里插入图片描述
引入了新的超参数β,因为我们还要进行联合训练的另一项任务。 我们针对语义分支测试了不同的损失权重,如表6所示。结果表明,我们的方法对损失权重不敏感。

5. Conclusion

文章提出了 Hybrid Task Cascade (HTC),一种用于实例分割的新级联体系结构。

该框架逐步完善 mask predictions ,并在每个阶段将补充功能集成在一起。

原创文章 46 获赞 36 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_38673554/article/details/104994029
今日推荐