papier CVPR2020 décrit: algorithmes de détection de cibles 3D efficace

papier CVPR2020 décrit: algorithmes de détection de cibles 3D efficace

CVPR 2020: Structure Aware objet unique scène 3D Détection de nuage de points

Avec les papiers sélectionnés CVPR2020 d'exposition, l'article sur les articles du pilote automatique sont engagés, le papier propose un détecteur de pilote automatique universel, haute performance, la première fois la précision de détection d'objets 3D et la vitesse ont à la fois, augmenter efficacement le système de pilotage automatique la performance de la sécurité. À l'heure actuelle, l'autorité de la collecte des données de détection dans le domaine du classement sur le pilote automatique Kitti BEV au troisième rang. Thèse est de savoir comment résoudre le problème de la détection d'objet?

 

 

 

Voir agrégation

Crop et en utilisant la grille d'ancrage Resize être la même taille que la zone d'intérêt, et ensuite les caractéristiques à la fois est somme-élément par élément, et ensuite les premières propositions 3D régression linéaire. Ensuite NMS, en utilisant les propositions pour mener à bien des cultures et Redimensionner carte de fonction à nouveau, puis revenir à nouveau, des propositions d'amendements, obtenus par NMS objet des boîtes englobantes.

Les couches entièrement connecté à gauche figure ci-dessus régression de la taille de la position du véhicule, entièrement connecté couches angle droit vers l'arrière du véhicule.

 

 

 

 

 

détection d'objet en 3D, et des informations de catégorie d'objet pour une longueur de sortie et la largeur, l'angle de rotation dans un espace tridimensionnel de
reconnaissance d'images 2D ordinaire d'applications différentes, supérieures aux exigences de précision du système de pilotage automatique et le détecteur de vitesse non seulement d'identifier rapidement les environs objets, nous devons faire un positionnement précis de la position de l'objet dans l' espace en trois dimensions. Cependant, le courant principal de courant à un seul étage et les détecteurs de détection à deux étages ont été incapables de précision de détection de l' équilibre et la vitesse, ce qui limite considérablement les performances de sécurité automatique de conduite.
Cet article propose une nouvelle méthode de pensée est d'un détecteur à deux étages pour décrire les caractéristiques de à grains fins intégrées dans un seul détecteur de phase. Plus précisément, dans une formation de réseau secondaire en utilisant un détecteur de voxel , dans lequel une seule étape est converti en fonctionnalités au niveau du point, et d' appliquer un certain signal de contrôle, tout en soutenant le modèle sans l'implication du calcul du processus d'inférence de réseau, par conséquent, la protection en même temps , améliorer la rapidité et la précision de la détection.
Ce qui suit est l'interprétation du premier auteur du papier Chenhang Il a fait:
1. Contexte

 

2D objet de recherche de détection a été très mature, travaille pour le compte de la série RPN FasterRCNN et MaskRCNN, une série de tir YOLOv1-YOLOv3. Sur la base de la détection d'objets 2D a également proposé de nouvelles exigences pour la détection d'objets 3D. Détection spécifique des problèmes environnementaux décrits objet en trois dimensions, l'objet est donné Bounding Box. Par rapport à 2D, 3D Bounding Box représente la position et la taille de l'addition d'une pluralité de dimensions, plus de trois angles. Imaginez, la taille de la boîte de l'englobante avion est fixe, l'attitude de l'avion Outre l'emplacement, ainsi que de la poix, angle de lacet et de roulis trois angles.

À l'heure actuelle, pour la détection d'objets 3D Il est urgent pour l'industrie du pilote automatique de l'industrie, car pour sécuriser le pilote automatique, vous avez besoin d'une position en trois dimensions et de l'orientation autour de l'obstacle, la position en deux dimensions et de l'orientation dans l'image, sans information de profondeur, il n'y a aucun moyen d'éviter une collision . Ainsi, les ensembles de données de détection d'objets 3D sont la plupart du temps ensemble automatique de données pilote, la catégorie est principalement les véhicules et les piétons, plus couramment utilisé Kitti et KAIST. Étant donné que le pilote automatique du véhicule, de sorte que la hauteur de la détection d'obstacles pour la sécurité routière n'est pas très important, et les obstacles sur la terre, donc il n'y a pas de hauteur et des angles roulis deux angles. Ainsi, une méthode de détection d'objets 3D ignore la valeur de ces trois.

 

 



 

tâche traditionnelle de détection de cible en vision par ordinateur, reconnaissance d'image de cible différente détecter non seulement la présence d'un objet identifié sur l'image, pour donner la catégorie correspondante, les objets doivent être positionnés par boîte englobante. En fonction de la puissance requise de la cible de détection, typiquement l'image RGB en utilisant la détection de la cible, et la catégorie de l'objet sur l'image de sortie de la zone de délimitation 2D est appelée détection d'objet 2D. Et l'image RVB en utilisant les informations de détection de l'image de profondeur, et le nuage de points laser RVB-D, la catégorie d'objet et de la longueur de sortie et la largeur, l'angle de rotation dans l'espace tridimensionnel est désignée par la détection d'objets en 3D.

 

 

 

 

 

A données du nuage de points 3D à partir de la détection de cible est le système des éléments clés du pilote automatique (AV) est. zone de délimitation 2D estimée avec seulement des plans d'image 2D ordinaires de différentes détection de cible, AV a besoin de plus d'informations pour estimer la boîte englobante 3D du monde réel, telles que la planification de chemin pour effectuer des tâches avancées et d'éviter les collisions et autres. Ceci motive la méthode de détection de cible récente 3D, le procédé est appliqué réseau neuronal convolutif (CNN) de traitement de données de nuages ​​de points LiDAR du capteur supérieur.

 

Détection 3D avec Frustum PointNets

Modèle est divisé en trois parties:

  •  proposao frustum
  • segmentation instance 3D
  • l'estimation de la zone de délimitation amodal 3D
  •  

     

Pour 3D en temps réel d' acquisition de données de capteurs 3D encore nettement plus bas que la résolution des données 2D, donc utiliser des images 2D et la méthode de détection de cibles 2D à la proposition de mention (classification simultanée) avec de bons résultats .

 

 

 

Cette normalisation contribue à améliorer la rotation invariance de l'algorithme.

 

 


nuage de points actuel basé sur la 3D détection d'objet , il existe deux architectures:
1, un détecteur à une seule phase ( un seul étage): le nuage de points codés dans les caractéristiques de voxel (fonction de voxel), et le bloc d'objet prédite directement 3D CNN, vitesse. Cependant, étant donné que le point de trouble est déconstruit dans CNN, la différence structurelle entre la perception de l'objet, la précision est légèrement plus faible. 2, deux détecteurs de phase (deux étapes): Le premier niveau des caractéristiques extraites avec des points PointNet, et en utilisant un nuage de points de la zone de bassin de candidats (Pooling du nuage de points) pour obtenir des caractéristiques fines pourrait atteindre souvent une grande précision , mais est très lent. .

 

 

 

 

2. Méthodes



 

L'industrie est basée principalement détecteur de phase unique, ce qui garantira que le détecteur peut être effectuée de manière efficace sur un système en temps réel. Le schéma proposé des dispositifs de détection à deux étages caractérisent l'idée de migrer une seule phase à grains fins à la détection, à l'aide d'un réseau secondaire dans la formation de voxel, dans lequel un seul détecteur de phase comprend en points de niveau, et l'application d'un certain signal de surveillance, de sorte que la structure comporte également la conscience de convolution, améliorant ainsi la précision de détection. Ce faisant estimation du modèle, ne sont pas impliqués dans le calcul de réseau auxiliaire (isolée), assurant ainsi l'efficacité de détection du détecteur est une seule étape. D'autres améliorations ont proposé un projet, gauchissement partie sensible (PSWarp), pour le traitement d'une seule étape dans le détecteur de présence « boîte - décalage - confiance » des problèmes.

 

 

 

 

Le réseau principal



 

Un détecteur pour le déploiement, à savoir réseau extrapolation, le réseau de base et un des composants de la tête de détection. réseau fédérateur 3D avec des réseaux rares, pour extraire un voxel contient une haute caractéristiques sémantiques. La tête de détection voxel comprimé dans une vue plongeante sur montrant, 2D et exécuter une convolution complète dans le réseau ci-dessus pour prédire le bloc d'objets 3D.

 

réseau auxiliaire



 

Dans la phase d'apprentissage, un réseau secondaire a proposé d'extraire la convolution de la couche intermédiaire, dans lequel le réseau de base, et les convertir en un niveau de fonctionnalité de point caractéristique (fonction point par point). Dans la mise en œuvre, ici, la fonction de cartographie est convolution à l'espace non nul nuage de point d'origine, puis interpolée à chaque point, cet article peut être acquis niveau de point caractéristique représente convolution. Classement {(): j = 0, ..., M} est la convolution de la représentation de l'espace de fonction, {: i = 0, ..., N}, le nuage de point d'origine, dans lequel la convolution représentée sur le point d'origine est égal à

 

 

 

 

tâches auxiliaires



 

Cet article propose deux stratégies de surveillance basée sur les caractéristiques du niveau point pour aider à obtenir une bonne convolution structure caractéristique de la perception, une tâche de segmentation de premier plan, un retour au point central de la tâche.

 

 

 

 

 

Plus précisément, par rapport à l'extracteur de caractéristique PointNet (A), un réseau de convolution et les dommages de la cause sous-échantillonnées convolution (b) de sorte que la structure de nuage point caractéristique insensible à la limite et la structure interne de l'objet. Dans cet article, divisant la tâche de veiller à ce que ne seront pas affectés par les caractéristiques de fond © fonction de convolution partielle dans le prochain échantillonnage, renforçant ainsi la perception de la frontière. Dans cet article, le point central de la tâche de régression afin d'améliorer les caractéristiques de convolution d'une structure interne d'une perception de l'objet (D), de telle sorte que dans le cas d'un petit nombre de points peut être raisonnablement conclure que la taille potentielle de la forme de l'objet. Tel qu'il est utilisé ici, la perte focale et de diviser lisse l1 la tâche et revenir à la tâche centrale de résoudre l'optimisation.

 

3. Projet d' amélioration

 

 

 

 

Dans une seule détection de scène, des problèmes d'alignement et carte de fonction d'ancrage est un problème commun, ce qui peut conduire à la masse prévue de la zone de délimitation de positionnement ne correspond pas à un niveau de confiance, cela affectera la phase de post-traitement (NMS), le haut degré de confiance mais la faible masse du cadre de positionnement est retenu, et la haute qualité mais faible cadre de positionnement de confiance est mis au rebut. Dans l'algorithme de détection d'objet en deux étapes, RPN proposition extraite, sera alors la position correspondante dans les fonctions d'extraction de caractéristiques de la carte (ROI de mise en commun ou roi-align), ce temps correspondant aux nouvelles caractéristiques et proposition sont alignés. Ce document présente une meilleure PSRoIAlign base, gauchissement partie sensible (PSWarp) , le bloc de prédiction utilisé pour une nouvelle correction .
Comme on le voit ci - dessus, la modification de la couche de papier pour former des parties classement final K , dans lequel la figure sensible, avec {x_k: k = 1,2, ... , K} représentent, chaque partie spécifique de l'information sont codés sur la Fig. Par exemple, dans le cas de K = 4, il génère {supérieur gauche, supérieur droit, inférieur gauche, inférieur droit quatre partielle} caractéristique sensible à la Fig. Pendant ce temps, chaque zone de délimitation de l' article prédite est divisé en fenêtres de sous-K, et sélectionner la position du centre de chaque sous-fenêtre , comme les points d'échantillonnage. Ainsi, ici peut générer des échantillons de grille K {S ^ k: k = 1,2 , ..., K}, chacun de la grille d'échantillonnage est associée à cette fonction locale correspondant à la Fig. Comme représenté, cet échantillonnage de l' échantillonneur de papier sur une vue partielle correspondante d'une caractéristique de sensibilité de la grille d'échantillonnage généré, génère une bonne caractéristique d'alignement sur la Fig. En fin de compte le reflet de la confiance dans la figure , dans lequel K est un diagramme caractéristique d'alignement de bonne moyenne.

 

4. effet

 

 

 

 

Procédé (noir) proposé PR Curve kitti sur la base de données, où la ligne continue est un procédé en deux étapes, la ligne brisée est un processus unique de la scène. Cet article peut être considéré comme un processus en une seule étape pour atteindre l'approche en deux étapes pour obtenir une précision.

  

 

 

effet aérienne Kitti (un BEV) et 3D dans le jeu de test. Tout en maintenant l'avantage de précision, aucun calcul supplémentaire, pour atteindre la vitesse de détection 25FPS.

 

 

 

 

 

 

 

 

 

 

 

 


 

Je suppose que tu aimes

Origine www.cnblogs.com/wujianming-110117/p/12529775.html
conseillé
Classement