RT-DETRv3横空出世!Transformer目标检测性能&耗时完爆YOLOv10!

百度最近又搞了波大的,推出了一种全新的实时端到端目标检测算法RT-DETRv3。

采用分层密集正监督方法,旨在不增加训练时长的基础上提升性能。性能&耗时完爆YOLOv10!

RT-DETRv3基于Transformer设计,属于代表模型DETR的魔改进化版。

用Transformer做目标检测,可以根据具体任务进行调整和优化,非常适合应对不同的检测需求和场景。此外,Transformer拥有强大的全局上下文建模能力和并行计算能力,能精准捕捉图像中的信息,显著提高目标检测的效率。

因此,用Transformer做目标检测也是CV领域重要的研究热点,我整理了10篇最新的【Transformer+目标检测】相关论文。需要的同学添加工中号【真AI至上】 回复 trans检测 即可全部领取。

RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision

文章解析:

本文提出了一种基于RT-DETR的改进模型RT-DETRv3,通过引入CNN辅助分支和自注意力扰动策略,提供了层次密集正监督,显著提升了模型的训练效果和性能。

实验结果表明,RT-DETRv3在COCO数据集上显著优于现有的实时目标检测器,包括RT-DETR系列和YOLO系列。

创新点:

1.引入了一个基于CNN的辅助分支,提供密集监督,增强了编码器的特征表示能力。

2.提出了自注意力扰动策略,通过多样化正样本的标签分配,丰富了正监督信息。

3.引入了共享权重的解码器分支,确保每个真实标签有更多高质量的查询匹配。

4.所有上述模块仅在训练时使用,不影响推理速度。

研究方法:

1.设计了一个基于CNN的辅助分支,与原始解码器协同优化,增强编码器的特征表示能力。

2.提出了自注意力扰动策略,通过多样化多个查询组的标签分配,增强了解码器的监督。

3.引入了共享权重的解码器分支,确保每个真实标签有更多高质量的查询匹配。

4.在COCO数据集上进行了广泛的实验,验证了方法的有效性。

研究结论:

1.RT-DETRv3在COCO数据集上显著优于现有的实时目标检测器,包括RT-DETR系列和YOLO系列。

2.RT-DETRv3-R18在保持相同延迟的情况下,AP值提高了1.6%,并且只需要一半的训练轮数即可达到相似性能。

3.RT-DETRv3-R101的AP值达到了54.6%,超过了YOLOv10-X。

Dynamic Object Queries for Transformer-based Incremental Object Detection

文章解析:

本文提出了一种名为DyQ-DETR的方法,通过在Transformer架构中引入动态对象查询来解决增量目标检测中的灾难性遗忘问题。

该方法通过逐步扩展模型表示能力,实现稳定性和可塑性的平衡,并通过分离监督和计算减少类间混淆,进一步提出风险平衡的部分校准以有效重放示例。

创新点:

1.提出了动态对象查询(DyQ-DETR),通过动态添加新的对象查询来扩展模型表示能力,实现增量学习。

2.引入了隔离的二部匹配和解耦的自注意力机制,减少不同阶段对象查询之间的交互,降低类间混淆。

3.提出了风险平衡的部分校准方法,有效处理不完整标注的数据,避免过度关注特定阶段的类别。

研究方法:

1.通过在每个增量步骤中添加新的可学习对象查询,与之前的对象查询集合,动态扩展模型表示能力。

2.采用分离的自注意力机制和二部匹配,消除不同阶段对象查询之间的交互,减少类间混淆。

3.提出风险平衡的部分校准方法,保留匹配损失适中的图像作为示例,并仅对已标注的类别进行部分校准。

研究结论:

1.DyQ-DETR显著超越了现有的增量目标检测方法,参数开销有限。

2.通过动态对象查询和风险平衡的部分校准,有效缓解了增量目标检测中的灾难性遗忘问题。

3.实验结果表明,DyQ-DETR在多个数据集上表现优异,具有良好的稳定性和可塑性。

猜你喜欢

转载自blog.csdn.net/m0_73122726/article/details/143406441