【Sparse R-CNN】《Sparse R-CNN：End-to-End Object Detection with Learnable Proposals》

其他 2021-10-08 21:46:22 阅读次数: 0

在这里插入图片描述

arXiv-2020

作者的博客：Sparse R-CNN

文章目录

1 Background and Motivation
2 Related Work
3 Advantages / Contributions
4 Method
5 Experiments
6 Conclusion（own） / Future work

1 Background and Motivation

在这里插入图片描述

现有目标检测方法的缺点

大量 redundant and near-duplicate result，需要 NMS post-processing
many-to-one label assignment problem in training makes the network sensitive to heuristic assign（预测的结果用哪个标签来监督最好）
最终的结果受 aspect ratios and anchor boxes， density of reference points，proposal generation algorithm 的影响较大

候选区域太 dense 了，Is it possible to design a sparse detector？

《End-to-End Object Detection with Transformers》（DETR）把目标检测重新定义为直接稀疏集合预测问题，它的输入仅仅100个学习的目标队列，最后的输出没有任何人工设计的后处理过程。

sparse 了很多

但是 DETR 仍然要求每个目标队列和全局图像上下文环境进行交互（self-attention），sparse 的不够彻底

作者受 DETR 的启发，提出 Sparse R-CNN，旨在开创一个 sparse 的目标检测 pipeline

2 Related Work

Dense method
one-stage
Dense-to-sparse method
two-stage
Sparse method
G-CNN

3 Advantages / Contributions

在这里插入图片描述

建立了超级 Sparse 的目标检测框架，

无需 anchor box，reference point，RPN，NMS 等，在 COCO 上实现了 44.5 AP和 22 FPS

4 Method

在这里插入图片描述
不同于 anchor 和 density of reference points，作者采用固定 N 个 learnable proposal（N = 100个，边界框坐标用 4 dimension 表示，center 和 h w）作为候选区域，经 RoI pooling，配合设计提出的 Dynamic Head 模块迭代地进行特征增强，最后分类回归

1）learnable proposal box

取代 two-stage 的 anchor 和 one-stage 的 density of reference points

作者采用固定 N 个 learnable proposal（N = 100个，边界框坐标用 4 dimension 表示，center 和 h w）

虽然4-dbbox用简短和明确的表达来描述对象，但是它仅仅提供了一个目标粗糙的定位，许多细节的信息都已经丢失了，比如目标姿态和形状。本文提出一个 proposal feature，它是一个高维度的隐式向量，期望她被编码成丰富的实例特征。proposal features的数量和boxes是一样的。

2）learnable proposal feature

特征进一步增强
在这里插入图片描述

包含在图3 的动态头结构中

细节就是，proposal feature 相当于 $1 * 1$ conv（也可以是其它 kernel size，但 $1 * 1$ 计算代价最小）作用在 RoI pooling 后的特征图上，进行特征增强

learnable proposal feature 它是一个高维度的隐式向量，设计出来是希望它被编码成丰富的实例特征

3）Dynamic instance interactive head

Fig 4 的过程会迭代很多次，类似于 cascade rcnn，不过迭代更加灵活，细节可以参考实验部分和作者的解答

在这里插入图片描述

作者最好的结果迭代了 6 次

4）Set prediction loss

和 DERT 一样，采用的 bipartite matching loss，

在这里插入图片描述

目的是解决 many-to-one label assignment problem

在这里插入图片描述
来自 End-to-End Object Detection with Transformers论文阅读笔记

理论基础是二分图匹配问题，经典的解决算法是匈牙利算法！

5 Experiments

在这里插入图片描述

效果图

在这里插入图片描述

6 Conclusion（own） / Future work

image query 感觉和 Sparse RCNN 中的 proposal feat 很像
来自 End-to-End Object Detection with Transformers论文阅读笔记
proposal feat 可以当成 1x1 kernel

猜你喜欢

转载自blog.csdn.net/bryant_meng/article/details/111648083

[Sparse R-CNN]Sparse R-CNN: End-to-End Object Detection with Learnable Proposals笔记

【Sparse R-CNN】《Sparse R-CNN：End-to-End Object Detection with Learnable Proposals》

目标检测 - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

[Sparse R-cnn]前置知识

Sparse R-CNN 论文精读

Sparse R-CNN细节剖析

从工程上彻底掌握Sparse R-CNN结构

Oriented R-CNN for Object Detection(定向R-CNN的目标检测)

Tensorflow Object Detection之Mask R-CNN

深度学习目标检测(object detection)系列R-CNN

Object Detection网络框架学习:R-CNN

【Object Detection】【RCNN】R-CNN代码复现笔记

【Object Detection】【RCNN】R-CNN论文阅读笔记

Cascade R-CNN: Delving into High Quality Object Detection

目标检测(Object Detection)3--Faster R-CNN

目标检测(Object Detection)2--Fast R-CNN

复现Oriented R-CNN for Object Detection(orientedRcnn)

Fater R-CNN 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文笔记

《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文阅读之Faster R-CNN

Faster R-CNN论文详读（Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks）

Object Detection 之两阶段检测方法：R-CNN, SPPnet, Fast R-CNN, Faster R-CNN, FPN, RFCN (03)

Object detection: speed and accuracy comparison (Faster R-CNN, R-FCN, SSD and YOLO)

Progressive Sparse Local Attention for Video object detection

CVPR 2022 | 涨点显著！AMD提出：动态Sparse R-CNN

Face Paper：Cascade R-CNN: Delving into High Quality Object Detection解读

深度学习目标检测(object detection)系列（四） Faster R-CNN

深度学习目标检测(object detection)系列（三） Fast R-CNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Face Paper：Cascade R-CNN: Delving into High Quality Object Detection

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

更多

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)