YOLOv8改进,YOLOv8采用RT-DETR检测头,CVPR 2024


在这里插入图片描述


摘要

RT-DETR:DETR 在实时对象检测方面击败 YOLO,RT-DETR 听起来很有排面,RT-DETR 解决了传统 YOLO 模型中由于非最大抑制(NMS)带来的延迟问题,并且在保持精度的同时大幅提升了推理速度,成为首个真正能够在实时场景中超越YOLO的端到端目标检测模型。在 YOLOv8 源码中已经集成了 RT-DETR,接下来,直接在yaml文件中调用就行。


# 理论介绍

RT-DETR(Real-Time DEtection TRansformer)的核心思想是将 Transformer 架构应用于实时目标检测中,并通过改进编码器和解码器的结构,提升检测速度和准确性,从而超越传统的YOLO系列模型。RT-DETR核心细节:

  • 高效的混合编码器:RT-DETR提出了一种高效的混合编码器,通过解耦不同尺度特征的交互,减少了计算冗余。编码器采用 Attention-based Intra-scale Feature Interaction(AIFI)进行特征内的交互,同时使用CNN-based Cross-scale Feature Fusion(CCFF)进行跨尺度特征融合,从而实现快速的多尺度特征处理,提升了推理速度。

  • 不确定性最小化的查询选择:为了提高检测器的精度,RT-DETR 提出了不确定性最小化的查询选择机制。该机制通过显式优化不确定性,提供高质量的初始查询,以帮助解码器更好地预测物体类别和位置。

  • 灵活的速度调节:RT-DETR 通过调整解码器层的数量来灵活调节推理速度,而无需重新训练模型。因此,RT-DETR 能够适应不同的实时应用场景。

RT-DETR 结构如下图(摘自论文)所示:将主干网络最后三个阶段的特征输入到编码器中。高效的混合编码器通过基于注意力的同尺度特征交互(AIFI)和基于CNN的跨尺度特征融合(CCFF)将多尺度特征转换为一系列的图像特征。然后,不确定性最小的查询选择机制从编码器特征中选择固定数量的特征,作为解码器的初始目标查询。最后,带有辅助预测头的解码器通过迭代优化目标查询,生成类别和边界框。
在这里插入图片描述

理论详解可以参考链接

猜你喜欢

转载自blog.csdn.net/weixin_44779079/article/details/143197418