[Lecture papier] Suivi multi-objets—ByteTrackV2 : suivi multi-objets 2D et 3D en associant chaque boîte de détection

(1) Titre

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé de sauvegarder l'image et de la télécharger directement (img-CFuleInG-1689159806259) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230711103238551.png)]

Écrit à l'avant : le nouveau travail de l'auteur de ByteTrack en mars de cette année, la version V2 mise à niveau ne se contente pas d'étendre ByteTrack aux scènes 3D, mais combine deux modèles basés sur le mouvement couramment utilisés par JDT et TBD dans le cadre d'une correspondance en deux étapes. La méthode of matching propose un nouveau mode d'adaptation de mouvement, qui a une idée nouvelle et a également atteint l'état de l'art sur le jeu de données 3D MOT nuScence. Notez que cette note est pour une version brouillon ! !

(2) Résumé

présentation de fond

La tâche de MOT est d'estimer les boîtes englobantes et les identités des objets . De la tâche spécifique, il y a grosso modo trois parties de travail : la détection (estimer les boîtes englobantes de l'objet), l'appariement et la prédiction (déterminer les identités de l'objet), l'idée principale de l'amélioration de la détection actuelle La tâche est toujours basée sur certains cadres de détection SOTA actuels, dans cet article Une idée pour améliorer la correspondance .

Problèmes avec l'approche actuelle

Au fur et à mesure que la scène de mouvement cible change, son score de détection change également en conséquence.La pratique courante est généralement d'obtenir des identités en associant des boîtiers de détection dont les scores sont supérieurs à un seuil. Les boîtes englobantes avec des scores faibles seront rejetées directement, ce qui conduira éventuellement à un véritable objet manquant et à une trajectoire fragmentée. Pour le dire simplement, de la tâche de détection à la tâche de suivi en aval, généralement afin d'éviter un faux positif trop élevé, un seuil fixe relativement élevé est utilisé pour filtrer la sortie de boîte englobante à faible score par le détecteur, de sorte que la détection des informations sont perdues, ce qui entraîne le processus de suivi.La situation d'interruption fait que la tâche de suivi a des exigences trop élevées sur la tâche de détection.

Méthode dans cet article

Nous proposons une méthode d'association simple, efficace et générale utilisable dans des scènes 2D ou 3D. Suivez chaque image de détection au lieu de l'image de détection à score élevé et utilisez leur similitude avec la trajectoire pour restaurer la cible réelle pour l'image de détection à faible score et filtrer l'arrière-plan. Réassociez la boîte englobante détectée au résultat de la prédiction pour réduire la trajectoire fragmentée et le changement d'ID causés par l'occlusion

Dans les scènes 3D, une stratégie de mouvement complémentaire combinant la vitesse de détection et le filtre de Kalman est proposée pour faire face aux occlusions à court terme et aux changements de mouvement soudains.

Performances du test

  • Il est en tête du classement nuScenes 3D MOT dans les modes caméra (56,4 % AMOT A) et lidar (70,1 % AMOT A).

(三)Introduction

ByteTrack

Le paradigme de suivi par détection le plus élémentaire consiste en la détection, la prédiction de mouvement et l'association de données. Tout d'abord, la boîte englobante 2D ou 3D et le degré de confiance sont générés par le détecteur cible. Utilisez ensuite le module de prédiction de mouvement, généralement le filtre de Kalman, pour prédire la position de la trajectoire de l'image suivante. Enfin, la case de détection est associée à la position prédite de la trajectoire selon une certaine similarité spatiale.

Cependant, il existe un problème difficile dans le suivi multi-cible actuel : comme indiqué en (a) dans la figure ci-dessous, le cadre de détection de cible actuel génère la boîte englobante finale à travers le seuil de confiance. Lorsque le seuil est trop grand, il apparaîtra détection manquante et. L'auteur analyse que la raison en est qu'un seuil plus élevé est défini lorsque les boîtes englobantes détectées sont données à l'association de données, ce qui entraîne la perte de certaines informations sur les boîtes englobantes à faible confiance, et ces boîtes englobantes à faible confiance contiennent souvent des cibles occluses.
insérez la description de l'image ici

Ce paramètre de seuil élevé est actuellement couramment utilisé dans MOT, mais l'impact d'une détection manquante sur les tâches de suivi est irréversible.

Afin d'éviter la perte d'informations de trame de détection à faible score, il est nécessaire de résoudre en outre le problème des faux positifs causé par une faible confiance. Par conséquent, l'auteur introduit une association secondaire, en ajoutant les cases à faible confiance qui peuvent faire correspondre les tracklets aux tracklets, et en traitant les cases sans correspondance comme arrière-plan, résolvant avec succès le problème actuel.

La méthode de mise en œuvre spécifique est :

  • Tout d'abord, les boîtes de détection à haute confiance sont associées aux tracklets en fonction de la similarité des mouvements. Utilisez également le filtre de Kalman pour prédire la position de la trajectoire actuelle dans l'image suivante. La méthode de calcul de similarité de mouvement s'exprime en calculant l'IoU entre les cases prédites par kalman et les cases à faible confiance.
  • Ensuite, les tracklets inégalés et les cases à faible confiance sont appariés deux fois via IOU. À ce stade, la boîte englobante à faible confiance due à l'occlusion peut être bien adaptée pour restaurer l'identité, et l'arrière-plan peut également être filtré.

ByteTrackV2

Les méthodes précédentes basées sur la prédiction de mouvement sont principalement divisées en deux types. L'une est basée sur la détection de vitesse . Cette méthode est plus robuste lorsqu'elle rencontre des mutations de vitesse imprévisibles et des vidéos à faible fréquence d'images. Cependant, en raison du manque d'informations historiques sur les mouvements, cette méthode impossible La méthode est difficile à réaliser une corrélation à long terme ; la seconde est basée sur le filtre de Kalman , qui combine des informations historiques pour produire une prédiction de mouvement plus fluide, mais il est difficile de faire face à des changements soudains de vitesse

Des changements de vitesse soudains et temporaires et des occlusions d'objets dans le MOT 3D peuvent entraîner des changements d'ID. Contrairement aux scènes 2D, la 3D complète naturellement les informations de profondeur. Par rapport à la 2D, ses informations de mouvement sont plus riches et la similarité spatiale facilite la distinction des objets.

Différent du MOT 2D, il est plus facile pour les trackers de prédire des vitesses précises dans les coordonnées mondiales.

Je ne comprends pas très bien pourquoi la 3D peut prédire sa vitesse avec plus de précision ?

Afin de résoudre le problème du mouvement soudain de l'objet et de sa disparition à court terme, l'auteur propose une méthode de prédiction de mouvement complémentaire qui combine la vitesse de l'objet détecté et le filtre de Kalman.

La méthode de mise en œuvre spécifique est :

La vitesse détectée par le détecteur est prédite à l'envers pour une association à court terme, qui est plus robuste aux mouvements brusques ; lorsque la cible disparaît à court terme en raison d'une occlusion, le filtre de Kalman peut maintenir sa position en douceur en prédisant en avant la position du objet manquant et associez-le pour restaurer l'identité de la cible lorsqu'elle réapparaît.

Cette méthode est merveilleuse. L'utilisation de la corrélation de prédiction de vitesse est souvent la pratique de JDT, comme la voie centrale, etc. ; tandis que KF est la pratique constante de TBD. L'auteur introduit l'idée de comparer le travail dans JDT dans TBD, de sorte que KF peut faire face plus facilement à des changements de mouvement complexes. Qu'est-ce que la prévision inverse et qu'est-ce que la prévision prospective Les méthodes spécifiques seront introduites dans la méthodologie.

ByteTrack se concentre sur la façon d'utiliser les trames de détection à faible score pour réduire la détection manquante et les trajectoires fragmentées dans les stratégies d'association de données, ce qui est une grande innovation du cadre d'association de données ; tandis que ByteTrackV2 se concentre sur la façon d'améliorer la qualité de l'association image par image, qui est une affiné Innovation de méthode pertinente. Cette méthode de prédiction de mouvement complémentaire a été introduite sur la base de ByteTrack et est devenue ByteTrackV2, qui offre non seulement d'excellentes performances en MOT 2D, mais peut également faire face à des environnements de mouvement plus complexes en MOT 3D.

Les apports de cet article sont les suivants :

1. Association unifiée de données 2D et 3D Appliquez une association de données en deux étapes au MOT 2D 3D.

2. Prédiction de mouvement 3D complémentaire Combinez la prédiction de vitesse et la prédiction KF pour devenir une nouvelle méthode de prédiction de mouvement complémentaire.

3. Expériences approfondies sur des repères MOT 3D sous différentes modalités Mener des expériences détaillées sur des nuScenes pour différentes entrées modales et obtenir des performances SOTA, prouvant sa faisabilité.

(四)Travail connexe

Il présente principalement le contenu de quatre parties, détection 2D/3D suivi 2D/3D, le texte original est écrit plus en détail, voici seulement un aperçu d'une partie du contenu

1、Détection d'objets 2D

2、Détection d'objets 3D

La méthode de détection d'objets 3D basée sur le lidar contient des informations précises sur la structure 3D et a une grande précision, mais son coût élevé limite son application.

Les méthodes basées sur la caméra ont attiré beaucoup d'attention en raison de leur faible coût et de la richesse de leurs informations contextuelles, mais la perception 3D à partir d'images 2D est elle-même un problème mal posé, car l'image elle-même manque des informations de profondeur les plus importantes, même si elle est convertie en un image pseudo-profondeur, ses informations de profondeur inexactes affecteront sérieusement la compréhension du réseau de l'espace 3D,

La méthode de perception BEV multi-vues centrée sur la vision (multi-caméras) réduit l'écart de performances entre les caméras et les lidars, et constitue une tendance dominante.

À l'heure actuelle, le détecteur grand public de 3D MOT utilise un radar laser car il peut fournir des informations de position précises.Deuxièmement, les détecteurs d'objets tridimensionnels basés sur l'image ont également commencé à être appliqués, car les informations d'image peuvent fournir des indices d'apparence.

Le cadre de suivi de ByteTrackV2 n'a rien à voir avec la modalité d'entrée, il peut donc être connecté à n'importe quelle forme de détecteur d'objet 3D

3, suivi multi-objets 2D

L'association de données est au cœur de la tâche de suivi multi-cibles, elle calcule d'abord la similarité entre la trajectoire et le cadre de détection, puis apparie en fonction de la similarité. Cela implique principalement deux problèmes fondamentaux : comment calculer la similarité entre le cadre de détection et la trajectoire , et comment faire correspondre le cadre de détection et la trajectoire en fonction de la similarité.

4, suivi multi-objets 3D

Le MOT 3D est similaire au MOT 2D à bien des égards, en particulier l'association de données . En raison de l'introduction supplémentaire d'informations de profondeur, l'utilisation d'indices de position et de mouvement pour l'association conduit à des résultats plus précis et plus fiables.

AB3DMOT est un dérivé de SORT dans les scènes 3D, correspondant selon 3D IOU ;

CenterPoint est basé sur CenterTrack, qui étend le paradigme basé sur le suivi du point central aux scènes 3D, et utilise la vitesse d'objet prévue comme un modèle de mouvement constant , qui a de meilleurs résultats dans des conditions de mouvement soudain ;

Il existe également de nombreux trackers 3D améliorés basés sur des trackers 2D.

ByteTrackV2 utilise uniquement des indices de mouvement pour l'association de données , ce qui est pratique pour les MOT 2D et 3D avec le même cadre.

(5) Méthode

Le pipeline ByteTrack, enfin ici, n'est qu'un organigramme officiel pour la correspondance en deux étapes :

insérez la description de l'image ici

1、Préliminaire

  • Détecteur d'objet 2D

L'auteur utilise YOLOX sans ancre comme détecteur de MOT 2D

À l'heure actuelle, de nombreux algorithmes MOT 2D utilisent ce détecteur. Bien sûr, différentes techniques de formation ont un grand impact sur les résultats finaux. La série ByteTrack a soigneusement conçu différentes techniques de formation pour différents ensembles de données afin d'obtenir un score SOTA.

  • Détecteur d'objets 3D basé sur caméra

Utilisation de PETRv2, un détecteur d'objets multi-caméras basé sur BEV.

Je ne connais pas ce détecteur, il semble être l'oeuvre de Megvii l'année dernière. L'auteur mentionne que le détecteur est basé sur l'architecture du transformateur et utilise les informations temporelles de la trame précédente pour améliorer les performances de détection, il peut donc également prédire la vitesse

  • Détecteur d'objets 3D basé sur LiDAR

Center-Point et TransFusion-L utilisés comme détecteurs d'objets basés sur lidar

Le premier est un dérivé du centre de travail contemporain de YOLO dans les scènes 3D, et le second est un travail sur CVPR dans les années 22. Après une brève compréhension, il est basé sur l'architecture du transformateur pour traiter le détecteur de cible Lidar-Camera Fusion.

==Remarque :==Parce que le cadre de suivi est très polyvalent, il n'a rien à voir avec le mode d'entrée ou le détecteur d'amarrage, donc je n'ai pas une compréhension approfondie de ces détecteurs. Si vous êtes intéressé, vous pouvez en savoir plus sur la comparaison au cours des dernières années Algorithmes de perception populaires.

  • Modèle de mouvement de base

Utilisez le filtre de Kalman de mouvement à vitesse constante et le modèle d'observation linéaire comme modèle de mouvement de base.

Dans une scène à deux dimensions, définissez le vecteur d'état comme ( u , v , a , b , u ˙ , v ˙ , a ˙ , b ˙ ) (u,v,a,b,\dot{u},\dot {v },\point{a},\point{b})( vous ,v ,un ,b ,tu˙ ,v˙ ,un˙ ,b˙ ), oùP 2 ré = ( u , v , une , b ) P^{2d}=(u,v,a,b)P2 j=( vous ,v ,un ,b ) Indique les coordonnées du point central du cadre de détection bidimensionnel, le rapport d'aspect et la hauteur de la boîte englobante ;V 2 d = ( u ˙ , v ˙ , a ˙ , b ˙ ) V^{2d }=(\point{u}, \point{v},\point{a},\point{b})V2 j=(tu˙ ,v˙ ,un˙ ,b˙ )représente la vitesse de changement correspondante.

Dans une scène tridimensionnelle, définissez le vecteur d'état comme ( x , y , z , θ , l , w , h , x ˙ , y ˙ , z ˙ ) (x,y,z,\theta,l,w, h,\ point{x},\point{y},\point{z})( x ,y ,z ,je ,je ,w ,h ,X˙ ,y˙,z˙ ),其中P 3 d = ( x , y , z ) P^{3d}=(x,y,z)P3d _=( x ,y ,z ) représente les coordonnées du point central du cadre de détection tridimensionnel,( l , w , h ) (l,w,h)( je ,w ,h ) représente la longueur, la largeur et la hauteur de la boîte englobante,θ \thetaθ représente l'angle de lacet du repère de détection ;V 3 d = ( x ˙ , y ˙ , z ˙ ) V^{3d}=(\dot{x},\dot{y},\dot{z})V3d _=(X˙ ,y˙,z˙ )représente la vitesse de changement correspondant au point central.

Contrairement à [7], nous définissons l'espace d'état dans les coordonnées du monde 3D pour éliminer les effets du mouvement de l'ego.

Je n'ai pas compris cette phrase dans le texte original. C'est peut-être parce que je n'ai pas lu AB3DMOT depuis longtemps. Je mettrai à jour l'explication après l'avoir relue la prochaine fois.

t + 1 t + 1e dans les scénarios de suivi 2D et 3Dt+Le processus de prédiction de mouvement d' une image peut être exprimé comme :
P t + 1 2 d = P t 2 d + V t 2 d P^{2d}_{t+1}=P^{2d}_{t}+ V^ {2d}_{t}Pj + 12 j=Pt2 j+Vt2 j

P t + 1 3 ré = P t 3 ré + V t 3 ré P^{3d}_{t+1}=P^{3d}_{t}+V^{3d}_{t}Pj + 13d _=Pt3d _+Vt3d _

Enfin, l'étape de mise à jour du filtre de Kalman fusionne et met à jour les trames de détection et de prédiction en tant que trajectoire de la trame courante.

2、Prédiction de mouvement 3D complémentaire

Dans cette section, une stratégie complémentaire de prédiction de mouvement 3D est proposée pour traiter les mouvements soudains et la disparition d'objets à court terme dans les scènes de conduite. Plus précisément, les auteurs utilisent la vitesse de détection pour la corrélation à court terme et le filtrage de Kalman pour la corrélation à long terme.

Ceux qui font du MOT connaissent très bien la routine du filtre de Kalman pour la prédiction de mouvement. Avant de commencer, voyons comment utiliser la vitesse de prédiction pour la prédiction de mouvement.

Prenez CenterTrack comme illustration, il y a trois branches d'entrée, à savoir l'image RVB de l'image actuelle/image précédente, la carte thermique de la distribution centrale cible de l'image précédente, et quatre branches de sortie, à savoir Heatmap, Confidence, Height&Width et Displacement Prediction , dont la dernière est Une branche de sortie délivre la vitesse de la trame actuelle par rapport à la trame précédente, et remonte jusqu'à la position possible de la cible dans la trame précédente à travers la vitesse prédite, et les associe selon le degré de similarité .

Il s'agit d'un tracker JDT très classique. Puisqu'il ne prédit que la vitesse entre deux images, cette méthode se concentre davantage sur la corrélation entre les images. Il est difficile de former des corrélations et des dépendances à long terme, même pour des occlusions à court terme. C'est facile pour provoquer un changement d'ID, qui est également le défaut du modèle de mouvement basé sur la prédiction de vitesse.

Dans la scène 3D, grâce au développement de certains détecteurs, il peut prédire avec précision la vitesse à court terme à travers la modélisation temporelle, qui peut très bien gérer les changements de vitesse soudains et a un avantage dans la corrélation à court terme ; tandis que le filtrage de Kalman peut mettre à jour l'état en fonction des informations historiques La modélisation des vitesses lisses à long terme favorise l'état de maintien des trajectoires en douceur même après des détections manquantes. Par conséquent, les auteurs maximisent les avantages des deux modèles de mouvement grâce à une stratégie de prédiction bilatérale.

1. Utilisez le filtre de Kalman pour la prédiction directe, qui est utilisé pour la corrélation à long terme des trajectoires perdues ;

2. Utilisez la vitesse de l'objet détecté pour la prédiction en arrière, qui est responsable de la corrélation à court terme des trajectoires de survie ;

Prédiction vers l'avant : l'étape de prédiction du filtre de Kalman est basée sur l'état postérieur au moment actuel et prédit l' état antérieur à l'instant suivant via l'équation de mouvement , en prédisant l'état futur, c'est donc ce qu'on appelle la prédiction vers l'avant ;

Prédiction inverse : la prédiction de vitesse basée sur le détecteur (tel que CenterTrack) consiste à saisir les informations d'image de l'image t et de l'image t-1 pour prédire le déplacement de la cible entre les deux images, c'est-à-dire la vitesse ; notez que le la vitesse ici est déterminée par t Elle est générée de -1 image à t image, de sorte que la détection générée à l'instant t peut être retracée jusqu'à la position à l'instant t-1 via cette vitesse, elle est donc appelée prédiction inverse ;

en supposant en ttMMau temps tM cibles de détectionD t ∈ RM × 7 D^t\in{R^{M\times7}}DtRM × 7 et enx , yx,yX ,Leur vitesse dans la direction y est V t ∈ RM × 2 V^t\in{R^{M\times2}}VtRM x 2 . Parrétroprévisiont − 1 t-1tLa position au temps 1
peut être décrite comme : D xt − 1 ^ = D xt − V xt \hat{D^{t-1}_x}=D^{t}_x-V^{t}_xDXt 1^=DXtVXt

ré yt − 1 ^ = ré yt − V yt \hat{D^{t-1}_y}=D^{t}_y-V^{t}_yDyt 1^=DytVyt

Supposons à t − 1 t-1t1 moment aNNN trajectoiresT t − 1 ∈ RN × 7 T^{t-1}\in{R^{N\times7}}Jt - 1RN × 7 , selon la formule ci-dessus, après prédiction directepar filtre de Kalman, la position à l'instant t est :
T x , y , zt = T x , y , zt − 1 + T ˙ x , y , zt − 1 T ^t_{x,y,z}=T^{t-1}_{x,y,z}+\dot{T}^{t-1}_{x,y,z}Jx , y , zt=Jx , y , zt 1+J˙x , y , zt 1
Après la prédiction bilatérale, la correspondance en deux étapes mentionnée dans ByteTrack est utilisée. Dans la première association à score élevé, le résultat de détection prédit en arrière D t − 1 D^{t-1}Dt 1 et la trajectoireT t − 1 T^{t-1}JLa matrice de similaritéentre t 1 S_{t}\in{R^{M\times N}}StRM × N peut être calculé par la formule suivante
S t ( i , j ) = GIOU ( D it − 1 , T jt − 1 ) S_{t}(i,j)=GIOU(D^{t-1}_i ,T ^{t-1}_j)St( je ,j )=G I O U ( Djet 1,Jjt 1)

La similarité entre la détection de trame courante et la trajectoire est dérivée du GIOU qui détecte la position de la rétropropagation à la trame précédente et la trajectoire de la trame précédente.

L'auteur utilise GIOU. La raison en est que l'objet dans la scène 3D a une vitesse de déplacement élevée ou une fréquence d'images faible. L'IOU du même objet dans deux images adjacentes est faible ou même nulle, ce qui peut être directement filtré et provoquer une mauvaise association.

Enfin, l'algorithme hongrois est utilisé pour attribuer la matrice de similarité. Après une association réussie, les résultats de la prédiction directe utilisant les détections d'images t et les images t de trajectoire correspondantes sont mis à jour après l'étape de mise à jour de Kalman .

Lorsque la trajectoire est perdue , seule la prédiction vers l'avant est utilisée pour mettre à jour l'emplacement de la trajectoire réservée relativement "en douceur", de manière à observer la réassociation lors de son apparition. Cette étape est appelée "rebirth" par l'auteur (en fait, elle est la récupération d'identité après occlusion)

Dans la deuxième étape d'appariement , c'est-à-dire que les détections à faible score sont appariées avec des trajectoires non associées, et la méthode d'association suit la méthode de la première étape d'appariement.
insérez la description de l'image ici

Dans la pratique habituelle, on juge à quel ID appartient la détection, qui est attribué en calculant la similarité entre la détection et la prédiction KF de trajectoire.

Dans ByteTrackV2, l'auteur donne une méthode pour juger à quel identifiant appartient la détection de trame actuelle , c'est-à-dire pour prédire inversement la position de l'observation dans la trame précédente à travers la vitesse, et pour voir quelle piste a le plus grand GIOU, et assigner l'identifiant de la trajectoire vers l'observation, puis à travers l'étape de mise à jour de KF, l'observation et le résultat de prédiction KF de la trajectoire à l'instant t sont mis à jour ;

Pour le dire franchement, la prédiction directe de KF est effectuée à chaque image. Lorsque la scène de mouvement est simple et qu'il n'y a pas d'occlusion, le résultat de la prédiction KF n'est utilisé que pour la mise à jour ; s'il y a occlusion, etc., la fonction de KF la prédiction vers l'avant consiste à poursuivre temporairement la trajectoire. ;

De plus, inspiré par NSA Kalman dans GIAOTracker, l'auteur fusionne le score de détection dans l'étape de mise à jour de Kalman et met à jour de manière adaptative la matrice de covariance d'observation R dans le filtre de Kalman :
R tj ^ = α ( 1 − stj ) 2 R tj \hat {R^j_t}=\alpha(1-s^j_t)^2R^j_tRtje^=un ( 1stje)2R _tje

L'introduction des scores de détection dans la matrice d'incertitude rend le filtrage KF plus robuste aux détections de différentes qualités

3、Association unifiée des données 2D et 3D

Le processus de mise en œuvre est similaire à ByteTrack :

Tout d'abord, en utilisant toutes les boîtes de détection, les boîtes de détection sont divisées en boîtes de détection à score élevé et boîtes de détection à faible score. Au temps t, la trajectoire existante est mise en correspondance sur la base du cadre de détection à score élevé. Pour la trajectoire qui n'a actuellement aucune boîte englobante pouvant être mise en correspondance, la raison de l'analyse est que la boîte englobante à faible confiance générée par l'occlusion ou le flou de mouvement correspondra le cadre correspondant à faible confiance avec celui sans correspondance. La trajectoire est mise en correspondance deux fois pour restaurer la boîte englobante à faible confiance, et l'arrière-plan est filtré en même temps. Le processus de mise en œuvre du pseudo-code correspondant
 :
insérez la description de l'image ici

Notez ici quelques détails :

  • Renaissance de la piste : après la détection d'une perte de piste, un maximum de 30 images seront conservées et supprimées si elles sont dépassées
  • Naissance de piste : lors de la première association, la trame de détection à score élevé sans correspondance est initialisée en tant que nouvelle piste en tant que nouvelle cible

L'auteur a expliqué que la raison pour laquelle le cadre de l'association en deux étapes fonctionne mieux est que lorsque l'occlusion se produit, le score de détection chutera souvent, et les cases de détection à score élevé représentent ces cibles non occluses, elles doivent donc être appariées en premier. Si une tracklet ne correspond à aucune image à score élevé, il est très probable que la piste sera bloquée et le score de détection chutera en conséquence. Par conséquent, dans la deuxième étape de l'association, l'image à faible score doit être associée à ces tracklets inégalés, afin de suivre la cible occluse. Pour les FP à faible score, puisqu'aucune trajectoire ne leur correspond, ils sont filtrés en conséquence.

(六)JEUX DE DONNÉES ET MÉTRIQUES

Cette partie traite principalement des ensembles de données et des indicateurs d'évaluation utilisés.

Les principaux jeux de données utilisés sont :

Jeu de données MOT17

Jeu de données MOT20

Ensemble de données HiEve

Jeu de données BDD100K

jeu de données nuScenes

Pour plus de détails sur la formation, veuillez vous référer au texte original, et il n'y a pas plus d'explications ici.

(7) EXPÉRIENCES

7.1 Détails de mise en œuvre

Les méthodes de formation 2D et 3D et les paramètres d'hyperparamètres sont introduits

Ce qui est plus intéressant, c'est que l'auteur a conçu différentes techniques de formation pour différents ensembles de données pour brosser la liste. L'opération spécifique peut être vue dans le texte original, et il n'y a pas beaucoup d'introduction ici.

7.2 MOT 2D

Cette partie est la même que le contenu de ByteTrack. L'application dite de ByteTrackV2 en MOT 2D est ByteTrack

7.2.1 Études d'ablation

  • Analyse de similarité

La mesure de similarité utilisée à chaque étape de l'appariement en deux étapes a révélé que dans la première correspondance de la trame à score élevé, IOU et Re-ID peuvent être utilisés pour obtenir de bons résultats. IOU est plus propice à MOTA, et Re- L'ID est plus bénéfique pour IDF1 ; et dans la deuxième mise en correspondance des images à faible score, l'utilisation de l'IOU est préférable, car les caractéristiques d'apparence extraites par Re-ID ne sont pas fiables en cas d'occlusion.

insérez la description de l'image ici

  • Comparaisons avec d'autres méthodes d'association

En comparant l'association en deux étapes Byte avec d'autres algorithmes d'association, on constate que Byte présente des avantages à la fois en termes de précision et de vitesse ; cela montre que seule l'utilisation d'IOU peut obtenir de bons résultats lorsque la précision de détection est suffisamment élevée

insérez la description de l'image ici

  • Robustesse au seuil du score de détection

Byte est plus robuste aux changements de seuil de détection, car Byte restaure la puissance de la correspondance des trames de détection à faible score et peut restaurer davantage de détections manquées causées par des occlusions

insérez la description de l'image ici

  • Analyse sur les cases de détection de faible score

On peut voir que Byte peut récupérer plus de TP dans la trame de détection à faible score sans introduire plus de FP

insérez la description de l'image ici

7.2.1 Évaluation de référence

CONTRE 17

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé de sauvegarder l'image et de la télécharger directement (img-vpMKzdHw-1689159806263) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230712155743030.png)]

CONTRE 20

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé de sauvegarder l'image et de la télécharger directement (img-ffeB4zTe-1689159806263) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230712155804494.png)]

SalutEve

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme de lien antivol, il est recommandé d'enregistrer l'image et de la télécharger directement (img-rjswQrLx-1689159806264) (C:\Users\Administrator\AppData\Roaming\Typora \typora-user-images\image-20230712155901906.png)]

BDD100K

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme de lien antivol, il est recommandé d'enregistrer l'image et de la télécharger directement (img-5xmdrUOl-1689159806264) (C:\Users\Administrator\AppData\Roaming\Typora \typora-user-images\image-20230712155956172.png)]

L'auteur a également donné des résultats de visualisation spécifiques Pour les cibles de détection à faible score sévèrement occluses, Byte peut toujours associer avec succès leurs informations d'identité, réduisant considérablement le commutateur FN et ID.

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme de lien antivol, il est recommandé d'enregistrer l'image et de la télécharger directement (img-NT55TDqX-1689159806264) (C:\Users\Administrator\AppData\Roaming\Typora \typora-user-images\image-20230712160234839.png)]
[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme de lien antivol, il est recommandé d'enregistrer l'image et de la télécharger directement (img-6w80lZhm-1689159806264) (C:\Users\Administrator\AppData\Roaming\Typora \typora-user-images\image-20230712160246026.png)]

7.3 MOTS 3D

7.3.1 Études d'ablation

  • Prédiction de mouvement complémentaire

On peut voir que l'écart entre KF et DV est différent en mode caméra et en mode lidar, ce qui montre que des résultats de détection plus précis peuvent être obtenus sous lidar, ce qui est propice à une estimation plus précise du filtre KF ;

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé de sauvegarder l'image et de la télécharger directement (img-NDcDDItl-1689159806265) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230712160602367.png)]

  • Stratégie d'association de données

Expliquer la faisabilité de l'algorithme d'association en deux étapes Byte dans les scènes 3D, et n'a pas besoin de considérer différentes modalités d'entrée

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé de sauvegarder l'image et de la télécharger directement (img-I4Mxah0Y-1689159806265) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230712162158639.png)]

  • Recherche d'hyperparamètres

Expériences d'ablation pour le seuillage des scores de détection et le seuillage des scores d'appariement GIOU.
Du côté gauche de la figure 8, on peut voir que parce que AMOTA nécessite un taux de rappel d'objets relativement élevé, plus le seuil de score de détection est bas, plus l'AMOTA est élevé ; cependant, la réduction du seuil de score de détection entraînera un grand nombre de faux associations, qui affecteront les performances de suivi.Grâce à la recherche de grille, il est constaté que le meilleur seuil basé sur la caméra est de 0,25 et le meilleur seuil basé sur Lidar est de 0,2 ;

Sur la droite, on observe que le seuil de score de correspondance de la caméra et du Lidar est d'environ 0,5, et AMOTA est le plus élevé

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé d'enregistrer l'image et de la télécharger directement (img-LBfVuPbK-1689159806265) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230712162402223.png)]

7.3.1 Évaluation de référence

Utilisez Camera et Lidar sur nuScenes pour effectuer des tests de performance sur son ensemble de vérification et son ensemble de test

Modalité caméra

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé d'enregistrer l'image et de la télécharger directement (img-gsOSmT7W-1689159806265) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230712163226603.png)]

Modalité LiDAR

[Le transfert d'image du lien externe a échoué, le site source peut avoir un mécanisme anti-leeching, il est recommandé d'enregistrer l'image et de la télécharger directement (img-Dnazscwv-1689159806266) (C:\Users\Administrator\AppData\Roaming\Typora\ typora-user-images\image-20230712163327777.png)]

(7. Conclusion

Dans cet article, sur la base de ByteTrack dans la scène 2D, il est étendu à la scène 3D, et une stratégie complémentaire de prédiction de mouvement basée sur la fusion de la prédiction de vitesse et de la prédiction du filtre de Kalman est proposée, qui peut atteindre l'indice SOTA sur différents ensembles de données de 2D et 3D . L'algorithme est robuste aux environnements d'occlusion et peut être connecté à des entrées de détecteur de différentes modalités.

L'idée de cet article :

Tout d'abord, il est analysé que l'algorithme habituel définira un seuil de détection plus élevé pour filtrer les détections non fiables afin de réduire les faux positifs. Cependant, cette approche rejette en fait les objets occultés correspondant à une confiance faible. Cette approche est irréversible, ce qui signifie que ces objets occultés ne peuvent pas être associés à des tracklets dans le processus de suivi de suivi, ce qui entraîne une détection manquante et des trajectoires fragmentées. temps, car il n'y a pas Au fur et à mesure que la détection est mise à jour, les paramètres KF divergeront également à mesure que le temps d'occlusion augmente, ce qui entraînera de fausses associations après la fin de l'occlusion.

Ensuite, envisagez d'utiliser des boîtes à faible niveau de confiance pour l'association de données. Mais en même temps, nous devons également réfléchir à la manière de résoudre le problème des faux positifs causé par l'introduction d'un faible niveau de confiance.

Enfin, un mode d'association d'appariement en deux étapes est proposé.Pour la première fois, des boîtes à haute confiance sont utilisées pour faire correspondre les tracklets (la haute confiance est d'éviter d'introduire de l'arrière-plan), puis les boîtes à faible confiance sont appariées avec des tracklets non appariés dans la première (tracklets non appariés Il se peut qu'une faible confiance soit obtenue parce que la cible est occluse), et le bruit de fond introduit par la détection à faible score sera également filtré en raison de trajectoires non appariées.

Dans la scène 3D, étant donné que la cible peut être sujette à une mutation de mouvement ou à une faible fréquence d'images, en plus d'utiliser la prédiction KF pour maintenir les informations de mouvement à long terme de la trajectoire, elle combine également la prédiction de vitesse en mode JDT à court terme. terme association de données. , que les auteurs appellent prédiction de mouvement complémentaire.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_46084134/article/details/131688473
conseillé
Classement