码科智能 | 边缘设备也能跑SOTA实时物体检测模型？DINOv2预训练+DETR端到端的黄金组合，第一个超60AP的模型！

本文来源公众号“码科智能”，仅用于学术分享，侵权删，干货满满。

原文链接：边缘设备也能跑SOTA实时物体检测模型？DINOv2预训练+DETR端到端的黄金组合，第一个超60AP的模型！

前天的文章刚提到为了加速实时视觉检测的几种方法，其中介绍到Roboflow的异步处理方式能有效提高视觉应用的处理速度。具体可查看：码科智能 | 加速实时视觉检测应用，在边缘设备部署上实现2.4倍的加速！-CSDN博客

今天Roboflow就开源了SOTA 实时物体检测模型RF-DETR，其在现实世界数据集上的表现优于所有现有的物体检测模型，并且是第一个在 COCO 数据集上进行基准测试时达到 60+ 平均精度的实时模型。

RF-DETR 属于“DETR”（检测 Transformer）模型系列。RF-DETR 足够小，可以在边缘运行，这使其成为需要高精度和实时性能的部署的理想模型。从下图的指标上可以看到基本碾压了YOLO整个系列模型的效果！最小的模型只有29M的参数量，分为RF-DETR-base（29M 个参数）和 RF-DETR-large（128M 个参数）。

有同学就会提到了，不就是COCO的SOTA吗？新的检测模型在COCO上达不到SOTA还怎么好意思吹？

这里就得好好说下了，Roboflow团队除了在COCO上进行评估外，还希望展示为什么领域适应性是更重要的评估指标。他们从 Universe 的 500,000 多个开源数据集中挑选出来的 100 个数据集，构建了一个新数据集RF100-VL。它代表了计算机视觉如何实际应用于无人机监测、工业检测、安防监控、智能零售等问题。

RF-DETR 是所有类别中唯一排名第一或第二的模型，显示的速度是使用 TensorRT10 FP16 (ms/img) 的 T4 上的 GPU 延迟。

RF-DETR 架构概述

YOLO目标检测在工业界的落地应用，使得CNN仍然是计算机视觉领域的核心组成部分，但CNN 本身无法像基于 Transformer 的方法那样从大规模预训练中获益。从目前LLM或者MLLM大模型来看，预训练对于实现出色的结果越来越重要。

那我们来看下RT-DETR的技术原理：

预训练的DINOv2主干：DINOv2基于在大规模数据集上进行自监督预训练，这也是视觉大模型常用的模型架构。通过将 LW-DETR 与预训练的 DINOv2 主干相结合来创建 RF-DETR。这使模型能够根据预训练的 DINOv2 主干中存储的知识来适应新领域，在面对新领域和小数据集时具有适应能力和泛化能力。
单尺度特征提取：可变形 DETR 采用多尺度自注意力机制，而RT-DETR从单尺度主干中提取图像特征图，从而降低计算复杂度。
多分辨率训练：用户根据实际需求灵活调整，无需重新训练模型，实现精度与延迟的动态平衡。
优化的后处理策略：在评估模型性能时，RF-DETR基于优化的非极大值抑制(NMS)策略，确保在考虑NMS延迟的情况下，模型的总延迟(TotalLatency)保持在较低水平，真实地反映模型在实际应用中的运行效率。

RF-DETR 模型微调

可以使用 rfdetr Python 包对 RF-DETR 进行微调，Roboflow Train 支持将在未来几天内提供。

也可以查看模型微调指南，其中逐步介绍如何训练您自己的 RF-DETR 模型。还可以在 GitHub 上查看该模型背后的源代码：

Code：https://github.com/roboflow/rf-detr
Demo：https://huggingface.co/spaces/SkalskiP/RF-DETR

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。

RF-DETR 架构概述

猜你喜欢

目录

热门文章