Notes d'étude sur papier RT-DETR (les DETR battent les YOLO sur la détection d'objets en temps réel)

Adresse papier : https://arxiv.org/abs/2304.08069

代码地址:GitHub - PaddlePaddle/PaddleDetection : boîte à outils de détection d'objets basée sur PaddlePaddle. Il prend en charge la détection d'objets, la segmentation d'instance, le suivi d'objets multiples et la détection de points clés multi-personnes en temps réel.

Résumé : Récemment, le détecteur de bout en bout basé sur transformateur (DETR) a atteint des performances remarquables. Cependant, le coût de calcul élevé de DETR n'a pas été efficacement pris en compte, ce qui limite leurs applications pratiques et les empêche d'exploiter pleinement les avantages de l'absence de post-traitement, tels que la suppression non maximale (NMS). Cet article analyse d'abord l'impact du NMS sur la vitesse d'inférence dans les détecteurs d'objets en temps réel modernes et établit une référence de vitesse de bout en bout. Pour éviter le retard d'inférence causé par NMS, les auteurs proposent un transformateur de détection en temps réel (RT-DETR), qui est le premier détecteur d'objet de bout en bout en temps réel. Plus précisément, un encodeur hybride efficace est conçu pour traiter efficacement les caractéristiques multi-échelles en découplant les interactions intra-échelle et la fusion inter-échelles, et une sélection de requêtes compatible IoU est proposée pour améliorer l'initialisation des requêtes cibles. De plus, le détecteur proposé dans cet article prend en charge un ajustement flexible de la vitesse d'inférence en utilisant différentes couches de décodeur sans réapprentissage, ce qui facilite l'application pratique des détecteurs d'objets en temps réel. RTDETR-L atteint 53,0 % AP sur COCO val2017 et 114 FPS sur GPU T4, tandis que RT-DETR-X atteint 54,8 % AP et 74 FPS, surpassant la même échelle en termes de vitesse et de précision Tous les détecteurs YOLO. De plus, le RTDETR-R50 atteint 53,1 % AP et 108 FPS, ce qui est 2,2 % plus élevé AP en précision et environ 21 fois plus élevé en FPS que DINO-Deformable-DETR-R50.

1. Introduction

        La détection d'objets est une tâche de vision fondamentale qui implique l'identification et la localisation d'objets dans des images. Il existe deux architectures typiques de détecteurs d'objets modernes : basée sur CNN et basée sur Transformer.

        Au cours des dernières années, des recherches approfondies ont été menées sur les détecteurs d'objets basés sur CNN. L'architecture de ces détecteurs a évolué de l'initiale à deux étages à un étage, et deux paradigmes de détection, Anchor-Base et Anchor-Free, ont émergé. Ces études ont fait des progrès significatifs à la fois en termes de vitesse de détection et de précision.

        Le détecteur d'objets à base de transformateur (DETR) a fait l'objet d'une grande attention de la part des universitaires depuis qu'il a été proposé en raison de l'élimination de divers composants conçus à la main, tels que la suppression non maximale (NMS). Cette architecture simplifie grandement le pipeline de détection d'objets et réalise une détection d'objets de bout en bout.

        La détection d'objets en temps réel est un domaine de recherche important avec un large éventail d'applications, telles que le suivi d'objets, la vidéosurveillance, la conduite autonome, etc. Les détecteurs en temps réel existants utilisent généralement des architectures basées sur CNN, qui permettent d'obtenir un compromis raisonnable entre la vitesse de détection et la précision. Cependant, ces détecteurs en temps réel nécessitent généralement un NMS pour le post-traitement, qui est généralement difficile à optimiser et pas assez robuste, ce qui entraîne un retard dans la vitesse d'inférence du détecteur.

        Récemment, les détecteurs basés sur Transformer ont atteint des performances remarquables grâce aux efforts des chercheurs pour accélérer la convergence de la formation et réduire les difficultés d'optimisation. Cependant, le problème du coût de calcul élevé de DETR n'a pas été résolu efficacement, ce qui limite l'application pratique de DETR et conduit à l'incapacité d'utiliser pleinement ses avantages. Cela signifie que bien que le pipeline de détection d'objets soit simplifié, il est difficile d'obtenir une détection d'objets en temps réel en raison du coût de calcul élevé du modèle lui-même.

        Les questions ci-dessus incitent naturellement à se demander si le DETR peut être étendu à des scénarios en temps réel, en utilisant pleinement les détecteurs de bout en bout pour éviter le retard causé par le NMS aux détecteurs en temps réel. Pour atteindre les objectifs ci-dessus, l'auteur repense DETR et mène une analyse détaillée et des expériences sur ses composants clés afin de réduire la redondance de calcul inutile.

        Plus précisément, les auteurs ont constaté que bien que l'introduction de fonctionnalités multi-échelles soit bénéfique pour accélérer la convergence de l'apprentissage et améliorer les performances, elle entraîne également une augmentation significative de la longueur de la séquence dans l'encodeur. Par conséquent, l'encodeur Transformer devient le goulot d'étranglement de calcul du modèle en raison de son coût de calcul élevé. Pour obtenir une détection d'objet en temps réel, un encodeur hybride efficace est conçu pour remplacer l'encodeur Transformer d'origine. En découplant l'interaction intra-échelle et la fusion inter-échelle des caractéristiques multi-échelles, l'encodeur peut gérer efficacement les caractéristiques à différentes échelles.

        De plus, des travaux antérieurs ont montré que le schéma d'initialisation de la requête cible du décodeur est essentiel aux performances de détection. Pour améliorer encore les performances, les auteurs proposent une sélection de requêtes compatible IoU, qui fournit des requêtes cibles initiales de meilleure qualité au décodeur en fournissant des contraintes IoU pendant la formation.

        De plus, le détecteur proposé par les auteurs prend en charge un ajustement flexible de la vitesse d'inférence en utilisant différentes couches de décodeur sans réapprentissage, ce qui bénéficie de la conception du décodeur dans l'architecture DETR et facilite l'application pratique des détecteurs en temps réel.

        Cet article propose un transformateur pour la détection en temps réel (RT-DETR), qui est le premier détecteur d'objet de bout en bout basé sur un transformateur en temps réel. RT-DETR surpasse non seulement les détecteurs en temps réel de pointe actuels en termes de précision et de vitesse, mais ne nécessite également aucun post-traitement, de sorte que la vitesse d'inférence du détecteur n'est pas retardée et reste stable, tirant pleinement parti de le pipeline de détection de bout en bout.

        RT-DETR-L atteint 53,0 % AP sur COCO val2017 et 114 FPS sur NVIDIA Tesla T4 GPU, tandis que RT-DETR-X atteint 54,8 % AP et 74 FPS, supérieurs en vitesse et en précision Tous les détecteurs YOLO à la même échelle. Par conséquent, RT-DETR devient un nouvel état de l'art pour la détection d'objets en temps réel, comme le montre la figure 1.

        De plus, le RT-DETR-R50 proposé atteint 53,1 % AP et 108 FPS, tandis que le RT-DETR-R101 atteint 54,3 % AP et 74 FPS. Parmi eux, RT-DETR50 est meilleur que DINO-Deformable-DETR-R50 en précision de 2,2 % AP (53,1 % AP contre 50,9 % AP), et est meilleur que DINO-Deformable-R50 en FPS (108 FPS contre 5 FPS) DETR-R5 environ 21 fois.

Les principales contributions de cet article sont résumées comme suit :

  1. Proposé le premier détecteur d'objets de bout en bout en temps réel, qui non seulement surpasse les détecteurs en temps réel actuels en termes de précision et de vitesse, mais ne nécessite pas non plus de post-traitement, de sorte que la vitesse d'inférence n'est pas retardée et reste stable ;

  2. L'impact du NMS sur les détecteurs en temps réel est analysé en détail et des conclusions sont tirées sur les détecteurs en temps réel basés sur CNN dans une perspective de post-traitement ;

  3. La sélection de requêtes compatible IoU proposée montre une excellente amélioration des performances de notre modèle, ce qui jette un nouvel éclairage sur l'amélioration du schéma d'initialisation pour les requêtes cibles ;

  4. Le travail dans cet article fournit une solution réalisable pour la mise en œuvre en temps réel de détecteurs de bout en bout, et le détecteur proposé peut ajuster de manière flexible la taille du modèle et la vitesse d'inférence en utilisant différentes couches de décodeur sans réentraînement.

2. Méthodes associées

2.1. Détecteur d'objets en temps réel

        Après des années de développement continu, la série YOLO est devenue synonyme de détecteurs de cibles en temps réel, qui peuvent être grossièrement divisés en deux catégories : Anchor-Base et Anchor-Free. D'après les performances de ces détecteurs, Anchor n'est plus le facteur principal. restreignant le développement de YOLO. . Cependant, les détecteurs ci-dessus produisent de nombreuses boîtes englobantes redondantes, qui doivent être filtrées à l'aide de NMS dans l'étape de post-traitement. Malheureusement, cela conduit à un goulot d'étranglement des performances, et les hyperparamètres du NMS ont un fort impact sur la précision et la vitesse du détecteur. Les auteurs soutiennent que cela est incompatible avec la philosophie de conception des détecteurs d'objets en temps réel.

2.2. Détecteur d'objet de bout en bout

        Les détecteurs d'objets de bout en bout sont connus pour leurs pipelines rationalisés. Carion et al ont d'abord proposé un détecteur de cible de bout en bout basé sur un transformateur appelé DETR (DEtection Transformer). Il a attiré beaucoup d'attention en raison de ses caractéristiques uniques. En particulier, DETR élimine les composants Anchor et NMS conçus manuellement dans les pipelines de détection traditionnels. Au lieu de cela, il utilise la correspondance binaire et prédit directement des ensembles d'objets un à un. En adoptant cette stratégie, DETR simplifie le pipeline de détection et soulage le goulot d'étranglement des performances causé par NMS. Malgré les avantages évidents de DETR, il souffre de deux problèmes majeurs : une lente convergence de formation et des requêtes difficiles à optimiser. De nombreuses variantes de DETR ont été proposées pour résoudre ces problèmes. Plus précisément, Deformable DETR accélère la convergence d'apprentissage des caractéristiques multi-échelles en améliorant l'efficacité du mécanisme d'attention. Le DETR conditionnel et le DETR d'ancrage réduisent la difficulté d'optimisation des requêtes. DAB-DETR introduit des points de référence 4D et optimise itérativement la trame de prédiction couche par couche. DN-DETR accélère la convergence de la formation en introduisant le débruitage des requêtes. DINO s'appuie sur des travaux antérieurs et obtient des résultats à la pointe de la technologie. Bien que les composants de DETR soient continuellement améliorés, l'objectif de cet article n'est pas seulement d'améliorer encore les performances du modèle, mais également de créer un détecteur d'objets de bout en bout en temps réel.

2.3. Fonctionnalités multi-échelles de la détection de cible

        Les détecteurs d'objets modernes ont démontré l'importance d'exploiter des fonctionnalités multi-échelles pour améliorer les performances, en particulier pour les petits objets. FPN introduit un réseau pyramidal d'entités qui fusionne les entités d'échelle adjacentes. Des travaux ultérieurs ont étendu et amélioré cette structure, et elle est largement utilisée dans les détecteurs d'objets en temps réel. Zhu et al ont d'abord introduit des fonctionnalités multi-échelles dans DETR, ce qui a amélioré les performances et la vitesse de convergence, mais cela a également entraîné une augmentation significative du coût de calcul de DETR. Bien que le mécanisme d'attention déformable allège le coût de calcul dans une certaine mesure, la combinaison de caractéristiques multi-échelles conduit toujours à une charge de calcul élevée. Pour résoudre ce problème, plusieurs travaux ont tenté de concevoir un DETR efficace en termes de calcul. Un DETR efficace réduit le nombre de couches d'encodeur et de décodeur en initialisant la requête cible avec des priors denses. Sparse DETR met à jour de manière sélective les jetons d'encodeur qui devraient être référencés par le décodeur, réduisant ainsi la surcharge de calcul. Lite DETR améliore l'efficacité des encodeurs en réduisant la fréquence de mise à jour des fonctionnalités de bas niveau de manière entrelacée. Bien que ces études réduisent le coût de calcul du DETR, le but de ces travaux n'est pas de généraliser le DETR en tant que détecteur en temps réel.

3. Vitesse de bout en bout du détecteur

3.1. Analyser le NMS

        Le NMS est un algorithme de post-traitement largement utilisé dans la détection pour éliminer les boîtes de prédiction qui se chevauchent en sortie des détecteurs. 2 hyperparamètres sont requis dans NMS : seuil de score et seuil IoU. En particulier, les boîtes prédites avec des scores inférieurs au seuil de score sont directement filtrées, et chaque fois que l'IoU de 2 boîtes prédites dépasse le seuil IoU, les boîtes avec des scores inférieurs sont rejetées. Ce processus est répété jusqu'à ce que toutes les cases de chaque catégorie aient été traitées. Par conséquent, le temps d'exécution de NMS dépend principalement du nombre de boîtes de prédiction d'entrée et de deux hyperparamètres.

        Afin de vérifier ce point de vue, l'auteur a utilisé YOLOv5 et YOLOv8 pour mener des expériences. Nous calculons d'abord le nombre de boîtes prédites restant après le filtrage des boîtes de sortie par différents seuils de score de la même image d'entrée. Certains scores de 0,001 à 0,25 sont échantillonnés comme seuils, les boîtes prédites restantes des deux détecteurs sont comptées et tracées sous forme d'histogramme, ce qui reflète intuitivement que NMS est sensible à ses hyperparamètres, comme le montre la figure 2. De plus, en prenant YOLOv8 comme exemple, la précision du modèle de COCO val2017 et le temps d'exécution des opérations NMS sous différents hyperparamètres NMS sont évalués.

        Notez que l'opération de post-traitement NMS utilisée dans l'expérience fait référence à TensorRT efficientNMSPlugin, qui implique plusieurs noyaux CUDA, notamment EfficientNMSFilter, RadixSort, EfficientNMS, etc. L'auteur ne signale que le temps d'exécution du noyau EfficientNMS. La vitesse est testée sur un GPU T4, et les images d'entrée et le prétraitement dans les expériences ci-dessus sont cohérents. Les hyperparamètres utilisés et les résultats correspondants sont présentés dans le tableau 1.

3.2. Référence de vitesse de bout en bout

        Afin de pouvoir comparer équitablement la vitesse d'inférence de bout en bout de divers détecteurs en temps réel, les auteurs construisent une référence de test de vitesse de bout en bout. Étant donné que le temps d'exécution de NMS peut être affecté par les images d'entrée, il est nécessaire de sélectionner un ensemble de données de référence et de calculer le temps d'exécution moyen pour plusieurs images. Le benchmark utilise COCO val2017 comme ensemble de données par défaut et ajoute le plug-in de post-traitement NMS de TensorRT pour les détecteurs en temps réel nécessitant un post-traitement. Plus précisément, le temps d'inférence moyen du détecteur est testé par rapport aux hyperparamètres de la précision correspondante sur l'ensemble de données de référence, à l'exclusion des opérations d'E/S et de copie de mémoire. Utilisez ce benchmark pour tester la vitesse de bout en bout des détecteurs à ancre YOLOv5 et YOLOv7 et des détecteurs sans ancre PP-YOLOE, YOLOv6 et YOLOv8 sur GPU T4. Les résultats des tests sont présentés dans le tableau 2.

        Selon les résultats, il est conclu que pour les détecteurs en temps réel qui nécessitent un post-traitement NMS, les détecteurs Anchor-Free surpassent les détecteurs Anchor-Base avec la même précision, car le temps de post-traitement des premiers est nettement inférieur à celui des détecteurs Anchor-Free. ce dernier, qui est dans le précédent négligé au travail. La raison de ce phénomène est que le détecteur Anchor-Base produit plus de boîtes prédites que le détecteur Anchor-Free (3 fois plus parmi les détecteurs testés).

4、Le DETR en temps réel

4.1. Présentation de la méthode

        Le RT-DETR proposé se compose d'un backbone, d'un encodeur hybride et d'un décodeur de transformateur avec un en-tête de prédiction auxiliaire. Un aperçu de l'architecture du modèle est présenté à la figure 3.

Spécifiquement:

1. Tout d'abord, utilisez les fonctionnalités de sortie des trois derniers étages des S3, S4 et S5 de Backbone comme entrée de l'encodeur ;

2. Ensuite, un encodeur hybride convertit les caractéristiques multi-échelles en une séquence de caractéristiques d'image via une interaction intra-échelle et une fusion inter-échelles (comme décrit dans la section 4.2) ;

3. Par la suite, la sélection de requête IoU-Aware est utilisée pour sélectionner un nombre fixe de caractéristiques d'image à partir de la séquence de sortie de l'encodeur comme requête cible initiale pour le décodeur ;

4. Enfin, un décodeur avec une tête de prédiction auxiliaire affine itérativement les requêtes d'objets pour générer des boîtes et des scores de confiance.

4.2. Encodeur hybride à haut rendement

1. Analyse des goulots d'étranglement de calcul

        Afin d'accélérer la convergence de la formation et d'améliorer les performances, Zhu et al ont suggéré d'introduire des fonctionnalités multi-échelles et ont proposé un mécanisme d'attention déformable pour réduire le calcul. Cependant, bien que les améliorations du mécanisme d'attention réduisent la surcharge de calcul, la forte augmentation de la longueur de la séquence d'entrée fait toujours du codeur un goulot d'étranglement de calcul, entravant la mise en œuvre en temps réel de DETR. Comme décrit dans Dˆ2etr [17], l'encodeur représente 49% des GFLOPs, mais seulement 11% des APs dans Deformable DETR. Pour surmonter cet obstacle, les auteurs analysent la redondance de calcul présente dans les codeurs Transformer multi-échelles et conçoivent un ensemble de variantes pour démontrer que l'interaction simultanée des caractéristiques intra-échelle et inter-échelle est inefficace en termes de calcul.

        Les caractéristiques de haut niveau sont extraites des caractéristiques de bas niveau qui contiennent des informations sémantiques riches sur les objets d'une image. Intuitivement, l'interaction des caractéristiques pour les caractéristiques multi-échelles concaténées est redondante. Comme le montre la figure 5, afin de tester cette idée, les auteurs repensent la structure du codeur et conçoivent une série de variantes avec différents codeurs.

        Ce groupe de variantes améliore progressivement la précision du modèle tout en réduisant considérablement les coûts de calcul en découplant les interactions de caractéristiques multi-échelles en opérations en deux étapes d'interaction intra-échelle et de fusion inter-échelles. Nous supprimons d'abord l'encodeur de transformation multi-échelles dans DINO-R50 comme ligne de base A. Ensuite, différentes formes d'encodeurs sont branchées pour produire une série de variantes basées sur la ligne de base A, comme suit :

  1. A→B : la variante B insère un encodeur Transformer à échelle unique qui utilise une couche de Transformer Block. Les caractéristiques de chaque échelle partagent un encodeur pour l'interaction des caractéristiques intra-échelle, puis concatènent les caractéristiques multi-échelles de sortie.

  2. B→C : la variante C introduit la fusion de caractéristiques à plusieurs échelles basée sur B et alimente les caractéristiques multi-échelles concaténées dans l'encodeur pour effectuer l'interaction des caractéristiques.

  3. C → D : la variante D découple l'interaction intra-échelle et la fusion inter-échelle des caractéristiques multi-échelles. Tout d'abord, un encodeur Transformer à échelle unique est utilisé pour l'interaction intra-échelle, puis une structure de type PANet est utilisée pour la fusion inter-échelle.

  4. D → E : la variante E optimise davantage l'interaction intra-échelle et la fusion inter-échelles des fonctionnalités multi-échelles basées sur D, en adoptant l'encodeur hybride efficace conçu.

2、Conception hybride

        Sur la base de l'analyse ci-dessus, les auteurs repensent la structure du codeur et proposent un nouveau codeur hybride efficace. Comme le montre la Fig. 3, l'encodeur proposé se compose de deux modules, à savoir le module d'interaction de caractéristiques intra-échelle basé sur l'attention (AIFI) et le module de fusion de caractéristiques inter-échelles basé sur le réseau neuronal (CCFM). AIFI réduit encore la redondance de calcul basée sur la variante D, qui n'effectue que des interactions intra-échelle sur S5. Les auteurs pensent que l'application d'opérations d'auto-attention à des fonctionnalités de haut niveau avec des concepts sémantiques plus riches peut capturer les connexions entre les entités conceptuelles dans les images, ce qui facilite la détection et la reconnaissance des objets dans les images par les modules suivants. Pendant ce temps, les interactions intra-échelle des fonctionnalités de niveau inférieur sont inutiles en raison du manque de concepts sémantiques et du risque de duplication et de confusion dans les interactions avec les fonctionnalités de haut niveau. Afin de tester cette idée, l'interaction intra-échelle a été effectuée uniquement pour S5 dans la variante D, et les résultats expérimentaux sont présentés dans le tableau 3, voir la ligne DS5. Par rapport à la variante D, DS5 réduit considérablement la latence (35 % plus rapide), mais améliore la précision (AP 0,4 % plus élevé). Cette conclusion est cruciale pour la conception de détecteurs en temps réel.

        CCFM est également optimisé sur la base de la variante D, en insérant plusieurs blocs de fusion constitués de couches convolutionnelles dans le chemin de fusion. Le rôle du bloc de fusion est de fusionner les entités adjacentes en une nouvelle entité, et sa structure est illustrée à la figure 4. Le bloc de fusion contient N RepBlocks et les deux sorties de chemin sont fusionnées par addition élément par élément.

        Ce processus peut être exprimé comme suit :

        Parmi eux, Attn signifie auto-attention multi-têtes, et Reshape signifie restaurer la forme de l'entité à la même forme que S5, qui est l'opération inverse de Faltten.

4.3, sélection de requêtes compatibles IoU

        La requête cible dans DETR est un ensemble d'incorporations apprenables qui sont optimisées par le décodeur et mappées aux scores de classification et aux cadres de délimitation par la tête de prédiction. Cependant, ces requêtes cibles sont difficiles à interpréter et à optimiser car elles n'ont pas de signification physique claire. Des travaux ultérieurs améliorent l'initialisation de la requête cible et l'étendent à la requête de contenu et à la requête de localisation (points d'ancrage). Parmi eux, Efficient detr, Dino et Deformable detr tous les schémas de sélection de requête proposés, et ce qu'ils ont en commun est d'utiliser le score de classification pour sélectionner les fonctionnalités Top-K à partir de l'encodeur pour initialiser la requête cible (ou uniquement la requête de localisation) . Cependant, en raison de la distribution incohérente des scores de classification et de la confiance de l'emplacement, certaines boîtes prédites ont des scores de classification élevés mais ne sont pas proches des boîtes GT, ce qui conduit à la sélection de boîtes avec des scores de classification élevés et des scores IoU faibles, tandis que les boîtes avec des scores de classification faibles et les scores IoU élevés sont sélectionnés. Les cases sont ignorées. Cela peut nuire aux performances du détecteur. Pour résoudre ce problème, les auteurs proposent une sélection de requêtes IoU-Aware en contraignant le modèle à produire des scores de classification élevés pour les fonctionnalités avec des scores IoU élevés et des scores de classification faibles pour les fonctionnalités avec des scores IoU faibles pendant la formation. Par conséquent, les boîtes prédites correspondant aux fonctionnalités de l'encodeur Top-K sélectionnées par le modèle en fonction des scores de classification ont des scores de classification élevés et des scores IoU élevés. L'objectif d'optimisation du détecteur est reformulé comme suit :

        où y_hat et y représentent la prédiction et GT, yˆ = {c, ˆ ˆb} et y = {c, b}. c et b désignent respectivement les catégories et les boîtes englobantes. Introduisez le score IoU dans la fonction objective de la branche de classification (similaire à VFL) pour obtenir des contraintes de cohérence sur la classification et la localisation de l'échantillon positif.

Analyse de l'efficacité : pour analyser l'efficacité de la sélection de requêtes compatible IoU proposée, les scores de classification et les scores IoU des fonctionnalités d'encodeur sélectionnées pour la sélection de la requête sont visualisés sur val2017, comme illustré à la figure 6.

        Plus précisément, nous sélectionnons d'abord les principales caractéristiques de l'encodeur K (K = 300 dans les expériences) en fonction du score de classification, puis visualisons les nuages ​​de points avec des scores de classification supérieurs à 0,5. Les points rouges et bleus sont calculés à partir de modèles entraînés à l'aide de la sélection de requête normale et de la sélection de requête sensible à l'IoU, respectivement. Plus les points sont proches du coin supérieur droit du tracé, plus la qualité des caractéristiques correspondantes est élevée, c'est-à-dire que les étiquettes de classification et les cadres de délimitation sont plus susceptibles de décrire des objets réels dans l'image. Selon les résultats de visualisation, la caractéristique la plus frappante est qu'un grand nombre de points bleus sont concentrés dans le coin supérieur droit du graphique, tandis que les points rouges sont concentrés dans le coin inférieur droit. Cela montre que les modèles entraînés avec une sélection de requêtes compatible IoU peuvent produire davantage de fonctionnalités d'encodeur de haute qualité.

        De plus, les caractéristiques de distribution de ces deux types de points sont également analysées quantitativement. Il y a 138 % plus de points bleus que de points rouges dans la figure, c'est-à-dire qu'il y a plus de points rouges avec un score de classification inférieur ou égal à 0,5, ce qui peut être considéré comme des caractéristiques de mauvaise qualité. Ensuite, analysez le score IoU des fonctionnalités avec un score de classification supérieur à 0,5 et constatez que lorsque le score IoU est supérieur à 0,5, il y a 120 % plus de points bleus que de points rouges. Les résultats quantitatifs démontrent en outre que la sélection de requêtes sensibles à l'IoU peut fournir davantage de fonctionnalités d'encodeur avec une classification précise (score de classification élevé) et une localisation précise (score IoU élevé) pour les requêtes d'objets, améliorant ainsi la précision du détecteur.

4.4, RT-DETR mis à l'échelle

        Pour fournir une version évolutive de RT-DETR, le réseau ResNet est remplacé par HGNetv2. Mettez à l'échelle les encodeurs Backbone et hybrides en utilisant le multiplicateur de profondeur et le multiplicateur de largeur. Ainsi, deux versions de RT-DETR avec des nombres de paramètres et de FPS différents sont obtenues. Pour l'encodeur hybride, le multiplicateur de profondeur et le multiplicateur de largeur sont contrôlés en ajustant le nombre de RepBlocks dans CCFM et la dimension d'intégration de l'encodeur, respectivement. Il convient de noter que le RT-DETR proposé avec différentes échelles maintient un décodeur homogène, ce qui facilite la distillation des photodétecteurs avec des modèles DETR à grande échelle de haute précision. Ce sera une direction future explorable.

5. Expérimentez

5.1. Comparaison avec SOTA

Je suppose que tu aimes

Origine blog.csdn.net/athrunsunny/article/details/130256098
conseillé
Classement