arXiv-2020
作者的博客:Sparse R-CNN
文章目录
1 Background and Motivation
现有目标检测方法的缺点
- 大量 redundant and near-duplicate result,需要 NMS post-processing
- many-to-one label assignment problem in training makes the network sensitive to heuristic assign(预测的结果用哪个标签来监督最好)
- 最终的结果受 aspect ratios and anchor boxes, density of reference points,proposal generation algorithm 的影响较大
候选区域太 dense 了,Is it possible to design a sparse detector?
《End-to-End Object Detection with Transformers》(DETR)把目标检测重新定义为直接稀疏集合预测问题,它的输入仅仅100个学习的目标队列,最后的输出没有任何人工设计的后处理过程。
sparse 了很多
但是 DETR 仍然要求每个目标队列和全局图像上下文环境进行交互(self-attention),sparse 的不够彻底
作者受 DETR 的启发,提出 Sparse R-CNN,旨在开创一个 sparse 的目标检测 pipeline
2 Related Work
- Dense method
one-stage - Dense-to-sparse method
two-stage - Sparse method
G-CNN
3 Advantages / Contributions
建立了超级 Sparse 的目标检测框架,
无需 anchor box,reference point,RPN,NMS 等,在 COCO 上实现了 44.5 AP和 22 FPS
4 Method
不同于 anchor 和 density of reference points,作者采用固定 N 个 learnable proposal(N = 100个,边界框坐标用 4 dimension 表示,center 和 h w)作为候选区域,经 RoI pooling,配合设计提出的 Dynamic Head 模块迭代地进行特征增强,最后分类回归
1)learnable proposal box
取代 two-stage 的 anchor 和 one-stage 的 density of reference points
作者采用固定 N 个 learnable proposal(N = 100个,边界框坐标用 4 dimension 表示,center 和 h w)
虽然4-dbbox用简短和明确的表达来描述对象,但是它仅仅提供了一个目标粗糙的定位,许多细节的信息都已经丢失了,比如目标姿态和形状。本文提出一个 proposal feature,它是一个高维度的隐式向量,期望她被编码成丰富的实例特征。proposal features的数量和boxes是一样的。
2)learnable proposal feature
特征进一步增强
包含在图3 的动态头结构中
细节就是,proposal feature 相当于 1 ∗ 1 1*1 1∗1 conv(也可以是其它 kernel size,但 1 ∗ 1 1*1 1∗1 计算代价最小) 作用在 RoI pooling 后的特征图上,进行特征增强
learnable proposal feature 它是一个高维度的隐式向量,设计出来是希望它被编码成丰富的实例特征
3)Dynamic instance interactive head
Fig 4 的过程会迭代很多次,类似于 cascade rcnn,不过迭代更加灵活,细节可以参考实验部分和作者的解答
作者最好的结果迭代了 6 次
4)Set prediction loss
和 DERT 一样,采用的 bipartite matching loss,
目的是解决 many-to-one label assignment problem
来自 End-to-End Object Detection with Transformers论文阅读笔记
5 Experiments
效果图
6 Conclusion(own) / Future work
-
image query 感觉和 Sparse RCNN 中的 proposal feat 很像
来自 End-to-End Object Detection with Transformers论文阅读笔记
-
proposal feat 可以当成 1x1 kernel