YOLOv8改进，YOLOv8采用RT-DETR检测头，CVPR 2024

在这里插入图片描述

摘要

RT-DETR：DETR 在实时对象检测方面击败 YOLO，RT-DETR 听起来很有排面，RT-DETR 解决了传统 YOLO 模型中由于非最大抑制（NMS）带来的延迟问题，并且在保持精度的同时大幅提升了推理速度，成为首个真正能够在实时场景中超越YOLO的端到端目标检测模型。在 YOLOv8 源码中已经集成了 RT-DETR，接下来，直接在yaml文件中调用就行。

# 理论介绍

RT-DETR（Real-Time DEtection TRansformer）的核心思想是将 Transformer 架构应用于实时目标检测中，并通过改进编码器和解码器的结构，提升检测速度和准确性，从而超越传统的YOLO系列模型。RT-DETR核心细节：

高效的混合编码器：RT-DETR提出了一种高效的混合编码器，通过解耦不同尺度特征的交互，减少了计算冗余。编码器采用 Attention-based Intra-scale Feature Interaction（AIFI）进行特征内的交互，同时使用CNN-based Cross-scale Feature Fusion（CCFF）进行跨尺度特征融合，从而实现快速的多尺度特征处理，提升了推理速度。
不确定性最小化的查询选择：为了提高检测器的精度，RT-DETR 提出了不确定性最小化的查询选择机制。该机制通过显式优化不确定性，提供高质量的初始查询，以帮助解码器更好地预测物体类别和位置。
灵活的速度调节：RT-DETR 通过调整解码器层的数量来灵活调节推理速度，而无需重新训练模型。因此，RT-DETR 能够适应不同的实时应用场景。

RT-DETR 结构如下图（摘自论文）所示：将主干网络最后三个阶段的特征输入到编码器中。高效的混合编码器通过基于注意力的同尺度特征交互（AIFI）和基于CNN的跨尺度特征融合（CCFF）将多尺度特征转换为一系列的图像特征。然后，不确定性最小的查询选择机制从编码器特征中选择固定数量的特征，作为解码器的初始目标查询。最后，带有辅助预测头的解码器通过迭代优化目标查询，生成类别和边界框。
在这里插入图片描述

理论详解可以参考链接

YOLOv8改进，YOLOv8采用RT-DETR检测头，CVPR 2024

摘要

# 理论介绍

猜你喜欢