【Lecture papier】Pose à partir de la forme : estimation de la pose profonde pour les objets 3D arbitraires

insérez la description de l'image ici

Résumé

La plupart des méthodes d'estimation de pose profonde doivent être entraînées sur des instances ou des catégories d'objets spécifiques. Dans ce travail, nous proposons une approche entièrement générale de l'estimation de pose profonde qui ne nécessite pas que le réseau soit entraîné sur les catégories pertinentes, ni que les objets d'une catégorie aient des poses canoniques. Nous pensons qu'il s'agit d'une étape critique dans la conception de systèmes robotiques capables de faire des prédictions sur des objets en dehors de l'ensemble d'apprentissage, plutôt que d'appartenir à des catégories prédéfinies. Notre approche principale utilise la représentation de la forme 3D de l'objet cible pour estimer dynamiquement la pose. Plus précisément, nous formons un réseau neuronal convolutif qui prend une image de test et un modèle 3D en entrée et produit la pose 3D relative de l'objet dans l'image d'entrée par rapport au modèle 3D, et nous démontrons que notre méthode fonctionne bien sur des ensembles de données standard. ( Pascal3D +, ObjectNet3D et Pix3D) améliorent les performances de l'estimation de pose supervisée basée sur des catégories, et nous fournissons de meilleurs résultats que l'état de l'art sur ces benchmarks. Plus important encore, nous démontrons que notre réseau formé sur des objets fabriqués par l'homme de tous les jours dans ShapeNet peut se généraliser à un nouveau type d'objet 3D. Nos codes et modèles sont disponibles sur http://imagine.enpc.fr/~xiaoy/PoseFromShape/

1. Introduction

Imaginez un robot qui a besoin d'interagir avec un nouveau type d'objet qui n'appartient à aucune catégorie prédéfinie, comme un objet nouvellement fabriqué dans un atelier. L'utilisation des méthodes d'estimation de pose à vue unique existantes pour ce nouvel objet nécessiterait d'arrêter le robot et de former un réseau spécifique à cet objet avant de prendre toute autre mesure. Nous proposons ici une méthode qui prend directement en entrée un modèle 3D d'un nouvel objet et estime la position de l'objet dans l'image par rapport à ce modèle, sans aucun processus d'apprentissage supplémentaire. Nous soutenons que de telles capacités sont nécessaires pour des applications telles que la robotique "dans la nature", où de nouveaux objets de classes inconnues peuvent apparaître régulièrement à tout moment et ne peuvent être ignorés. De même, cette technologie est également nécessaire en VR.
insérez la description de l'image ici

图1:我们方法的图解。(A)训练数据:日常人造物体的3D模型、输入图像和姿态符号;(B)在测试时,给出一幅RGB图像和相应的3D形状,估计任意物体的姿态,即使是未知类别的物体

Pour surmonter la situation où les méthodes d'estimation de pose profonde sont basées sur la classe, c'est-à-dire prédisent différentes orientations en fonction de la classe d'objets, des travaux récents [10, 54] proposent une estimation de pose de classe inconnue pour les objets rigides, résultant en une seule prédiction. Cependant, [10] n'évalue que les catégories d'objets incluses dans les données d'apprentissage, tandis que [54] exige que les catégories de test soient similaires aux données d'apprentissage. Au lieu de cela, nous voulons souligner que notre méthode fonctionne également sur de nouveaux objets, qui peuvent différer considérablement de l'ensemble d'apprentissage. Par exemple, nous nous sommes entraînés uniquement sur des objets fabriqués par l'homme, mais nous avons quand même pu estimer les poses d'animaux tels que des chevaux, sans que l'un ou l'autre animal soit inclus dans les données d'entraînement (voir Figure 1 ou Figure 3). Notre méthode est similaire aux méthodes indépendantes des classes en ce sens qu'elle ne produit qu'une seule prédiction de pose et ne nécessite aucune formation supplémentaire pour générer des prédictions pour de nouvelles classes. Cependant, il est également spécifique à l'instance car il nécessite un modèle 3D de l'objet à détecter en entrée.
En fait, notre idée clé est que lors de la mesure de l'angle de vue d'une seule instance d'objet, il est préférable de connaître la forme 3D de l'objet que de connaître la définition de la classe d'objets entière. Notre travail peut être vu comme une synthèse de résultats de recherche récents [37, 38, 40] pour résoudre des problèmes d'estimation de pose basés sur des modèles 3D profonds. Nos résultats montrent que l'utilisation des informations du modèle 3D peut également améliorer les performances sur les catégories connues, même si les catégories ne sont qu'approchées dans le jeu de données Pascal3D+ [48].
Lorsque le modèle 3D exact de l'objet est connu, comme dans le jeu de données LINEMOD [15], il est généralement obtenu en effectuant d'abord une estimation grossière de l'angle de vue, puis en appliquant une méthode de raffinement de la pose, généralement en faisant correspondre l'image rendue du modèle 3D. à l'image cible Résultats de premier niveau. Notre méthode est utilisée pour effectuer un alignement grossier. Après application de notre méthode, le raffinement de la pose peut être effectué en utilisant des méthodes classiques basées sur l'ICP ou la récente méthode DeepIM [25]. Notez que bien que DeepIM n'effectue que l'optimisation, il est similaire à notre travail en ce qu'il est également indépendant de la classe et utilise une certaine connaissance du modèle 3D (en utilisant une vue rendue à la pose estimée) pour prédire ses mises à jour de pose.
Nos principales contributions sont les suivantes :
1. Au meilleur de nos connaissances, nous proposons la première méthode d'apprentissage en profondeur pour l'estimation du point de vue non basée sur les catégories, qui peut estimer la pose d'un objet uniquement sur son modèle 3D, quel que soit son Is il ressemble aux objets vus pendant la formation.
2. Nous pouvons apprendre et utiliser des "formes non formées", dont le cadre de référence n'a pas à s'aligner sur l'orientation normative, simplifiant la supervision des poses.
3. Nous démontrons sur un grand nombre de jeux de données [15, 42, 48, 49] que pour les catégories d'objets connues, l'ajout d'informations 3D au réseau d'estimation de pose peut améliorer les performances, et sur les objets jamais vus auparavant avoir un effet.

2. Travaux connexes

Dans cette section, nous discutons d'abord de l'estimation de la pose des corps rigides à partir d'une seule image RVB lorsque le modèle 3D de l'objet est connu, puis lorsque le modèle 3D est inconnu.
Estimation de la pose à l'aide de la forme d'un objet Les approches traditionnelles d'estimation de la position d'une forme 3D donnée dans une image peuvent être globalement classées en méthodes d'appariement de caractéristiques et en méthodes d'appariement de modèles. Les méthodes d'appariement des caractéristiques fonctionnent en extrayant les caractéristiques locales d'une image, en les faisant correspondre à un modèle 3D donné d'un objet, puis en utilisant une variante de l'algorithme PNP pour récupérer la pose 6D en fonction de la correspondance 2D-3D estimée. Des descripteurs de caractéristiques locales plus robustes [27, 34, 45, 46] et des algorithmes PNP plus efficaces [6, 21, 24, 53] ont été utilisés dans ce type de réseau de détection. Non seulement la détection de caractéristiques, mais même la prédiction au niveau du pixel [1]. Bien que ces méthodes fonctionnent bien sur des objets texturés, elles ont souvent du mal avec des objets mal texturés. Pour traiter ce type d'objets, les méthodes de correspondance de modèles tentent de faire correspondre les objets observés avec des modèles stockés [14, 15, 23, 26]. Cependant, ils fonctionnent mal sous occlusion partielle ou troncature.
Récemment, des modèles profonds ont été formés pour estimer les poses à partir d'images de modèles 3D connus. La plupart des méthodes trouvent des correspondances 2D à 3D en estimant la boîte englobante 3D de l'objet [10, 32, 39, 43] ou l'emplacement 2D dans l'image de test projetée des points clés sémantiques de l'objet [9, 34], puis en appliquant le PNP L'algorithme est similaire à la correspondance des fonctionnalités. Après avoir obtenu une pose d'objet approximative, vous pouvez utiliser des méthodes basées sur la correspondance de modèles pour obtenir des résultats plus précis
Estimation de la pose sans forme d'objetCes dernières années, avec la publication d'ensembles de données à grande échelle [8, 15, 42, 48, 49], les méthodes d'apprentissage basées sur les données (basées sur des données réelles ou synthétiques) ont été largement utilisées et ne reposent pas sur des données 3D précises. information. Ces méthodes peuvent être largement classées en celles basées sur n'importe quel objet dans la catégorie de formation et celles basées sur un seul objet ou scène. Pour l'estimation de pose basée sur la classe, des vues standard sous tous les angles sont requises pour toutes les classes. Le processus de prédiction peut être réduit à un problème de régression [30, 33, 35], un problème de classification [4, 41, 46] ou une combinaison des deux [12, 22, 28, 31]. De plus, par exemple, Zhou régresse directement les points clés 3D indépendants de la catégorie pour estimer la similarité entre l'image et les coordonnées mondiales [54]. En suivant la même stratégie, il est également possible d'estimer la relation de pose d'une seule caméra par rapport à un seul modèle 3D sans informations précises sur le modèle 3D. De nombreux travaux récents adoptent cette stratégie pour résoudre le problème de la mesure de la pose 6-DOF de la cible [17, 22, 31, 44, 50] et de la localisation de la vue caméra.
insérez la description de l'image ici
Figure 2 : Aperçu de notre approche. (A) Étant donné une image RVB d'un objet et sa forme 3D, nous utilisons deux encodeurs pour extraire les caractéristiques de chaque entrée, puis estimer l'orientation de l'objet capturé. Utilisez des méthodes de classification et de régression sur la forme pour obtenir ses angles d'azimut, de tangage et de roulis. (B) Pour le codage de forme, nous utilisons PointNet pour coder un nuage de points suréchantillonné d'un objet (en haut), ou nous générons des rendus de différents angles de l'objet et utilisons un cnn pour extraire des caractéristiques (en bas).

Dans ce travail, nous fusionnons les deux travaux ci-dessus. Nous traitons l'estimation de pose comme un problème de prédiction, équivalent aux méthodes d'apprentissage en profondeur qui n'exploitent pas directement les informations de point de vue. Cependant, notre réseau est basé sur un modèle 3D d'un objet d'instance unique, qui est représenté par un ensemble de vues ou un ensemble de nuages ​​de points, c'est-à-dire que notre réseau repose sur un modèle 3D précis, similaire aux méthodes d'appariement des fonctionnalités et des modèles. À notre connaissance, nous sommes les premiers à utiliser les informations d'image et de forme comme entrée de réseau pour l'estimation de la pose.

3. Structure du réseau et processus de formation

Notre approche consiste à extraire des informations détaillées sur les caractéristiques des images et des formes et à les fusionner pour prédire la pose relative. La structure globale est illustrée à la figure 2. Dans cette section, nous présentons plus de détails sur notre structure de réseau, notre fonction de perte et notre méthode de formation, ainsi que notre schéma d'augmentation de données spécifique à la méthode.
Extraction de caractéristiques La première partie du réseau se compose de deux modules distincts : (i) extraction de caractéristiques d'image (ii) extraction de caractéristiques de forme 3D. Pour l'extraction de caractéristiques d'image, nous utilisons un réseau CNN standard - ResNet-18 [13]. Pour les caractéristiques 3D, nous expérimentons deux réseaux de représentation d'images 3D à la pointe de la technologie illustrés à la figure 2(b).

  • Tout d'abord, nous utilisons le réseau de nuages ​​de points embarqué PointNet [37], qui a été utilisé avec succès comme encodeurs de nuages ​​de points [5, 11, 36, 47, 52] dans de nombreuses tâches.
  • Deuxièmement, nous essayons d'utiliser la vue rendue pour représenter la forme 3D, similaire à [40], placez une caméra virtuelle autour de la forme 3D, pointant vers le centre de gravité du modèle ; le CNN prend l'image rendue pertinente en entrée, extrait le image avec le même poids, puis s'appuie sur le vecteur de caractéristique global obtenu. Nous avons envisagé des variantes de cette architecture utilisant des canaux d'entrée supplémentaires pour l'orientation normale de la profondeur et/ou de la surface, mais cela n'a pas amélioré de manière significative nos résultats. Idéalement, nous considérerions le point de vue de toute la sphère autour de l'objet dans n'importe quelle direction. Cependant, en réalité, de nombreuses cibles ont une grande déviation dans la direction verticale, et les images ne peuvent être obtenues que de côté ou d'en haut. Par conséquent, dans nos expériences, nous ne considérons que les points de vue sur l'hémisphère supérieur et échantillonnons uniformément en azimut et en élévation.

Estimation de l'orientation L'estimation de l'orientation de la cible est obtenue en extrayant des caractéristiques des images et des informations 3D via un perceptron multicouche, qui se compose de trois couches cachées avec respectivement 800, 400 et 200 neurones. Chaque couche entièrement connectée est suivie d'une couche de normalisation et d'une fonction d'activation Relu.
La sortie correspond à trois angles d'Euler par rapport au système de coordonnées de la forme 3D, à savoir l'azimut (azi), l'élévation (ele) et le roulis (inp). Chaque angle θ ∈ E = {azi, ele, inp} est calculé à partir de l'angle et du décalage en utilisant une combinaison d'algorithmes de classification et de régression. Plus précisément, nous divisons ε en Lθ en moyenne, et chaque angle est θ. Pour chaque θ -bin l∈{0,Lθ−1}, la sortie du réseau est une probabilité p θ.l∈[0,1], qui normalise les résultats de classification avec la fonction softmax, et une autre valeur de sortie est le décalage δ θ.l∈[-1,1] par rapport à la position centrale de θ obtenue par la fonction tangente hyperbolique. De cette façon, le réseau a 2 sorties × (Lazi + Lele + Linp).

Fonction de perte Lorsque nous combinons classification et régression, le réseau aura deux sorties (probabilité et décalage), résultant en une fonction de perte globale L, qui est la fonction de perte d'entropie croisée Lcla du problème de classification et la fonction de perte de Huber de la régression problème Lreg est additionné pour obtenir.
De plus, supposons les données d'apprentissage (xi, si, yi), où xi est le graphique d'entrée, si est la forme 3D et yi est l'angle d'Euler correspondant. Nous convertissons l'angle d'Euler yi en 1 données d'étiquette l i.θ et le décalage correspondant δ. La fonction de perte réseau s'exprime comme suit :
insérez la description de l'image ici

Augmentation de données Nous effectuons une augmentation de données normalisée sur les images d'entrée : retournement horizontal, recadrage aléatoire, tramage des couleurs.
De plus, nous introduisons une nouvelle méthode d'augmentation des données, et pour notre méthode, une nouvelle méthode d'augmentation des données est conçue pour éviter que le réseau ne surajuste l'orientation du modèle 3D, ce qui est courant dans les données d'apprentissage, puisque la plupart des modèles sont tous dans la même direction. Au lieu de cela, nous voulons que notre réseau soit indépendant de la classe et prédise toujours la pose d'un objet par rapport à un modèle 3D de référence. Par conséquent, nous ajoutons des rotations aléatoires à la forme d'entrée et modifions les étiquettes d'orientation en conséquence. Dans nos expériences, nous avons limité la rotation aux changements d'azimut, encore une fois en raison du fort biais de verticalité des objets dans les arrière-plans du monde réel, mais cela pourrait théoriquement être appliqué à tous les angles. En raison de la symétrie des objets (généralement à 90° ou 180°), nous remplaçons l'échantillonnage aléatoire par un échantillonnage uniforme en [−45°, 45°], ce qui permet également d'assurer un biais de 0° pour les annotations. Voir les informations supplémentaires pour les détails et les études paramétriques.
Détails de mise en œuvre Dans toutes nos expériences, la taille du lot est fixée à 16, et notre réseau est entraîné à l'aide de l'optimiseur ADAM [20] avec un taux d'apprentissage de 10−4 pour les cent premières itérations et de 10−5 pour les 100 autres itérations. Par rapport aux méthodes non basées sur la forme, l'entraînement sur des formes encodées avec 12 vues rendues est environ 8 fois plus lent sur un GPU TITAN X.

expérience

Étant donné un modèle 3D d'un objet et une image RVB, notre méthode mesure l'orientation 3D de l'objet représenté sur l'image. Dans cette section, nous donnons d'abord un aperçu du type d'ensemble d'entraînement que nous utilisons, puis expliquons l'idée de base de notre méthode. Notre méthode est ensuite évaluée dans deux scénarios de test : à savoir, des classes cibles connues et inconnues.
Ensembles de données Nous nous entraînons et testons sur 4 ensembles de données grand public. Parmi eux, Pascal3D+ [48], ObjectNet3D [49] et Pix3D [42] incluent plusieurs types d'objets dans divers environnements, qui remplissent les conditions d'estimation de pose d'objet dans la nature. En revanche, LINEMOD [15] se concentre sur quelques objets avec moins de variation environnementale, principalement pour la manipulation robotique. Pascal3D+ et Object-Net3D ne fournissent que des modèles approximatifs et un alignement approximatif, tandis que Pix3D et LINEMOD fournissent des modèles précis et un alignement des pixels. Nous nous entraînons également sur des données synthétiques en utilisant ShapeNetCore [2] avec un arrière-plan de SUN397 [51] et testons sur Pix3D et LINEMOD.
La vérité terrain est utilisée comme cadre de délimitation dans toutes les expériences, sauf indication contraire. Nous utilisons les indicateurs les plus courants pour calculer la situation de chaque ensemble de données : AccΠ/6 est le pourcentage d'erreur de rotation inférieur à 30 ° ; MedErr est l'erreur d'angle médian (° ); ADD-S-0.1 est la position de la valeur prédite et Le pourcentage de la distance moyenne de la position réelle du modèle 3D ne dépasse pas 10 % de la cible à mesurer ; Add-S-0.1d est une variante de ADD-0.1d pour les objets symétriques, où la valeur moyenne est calculée en fonction de la distance du point le plus proche. Plus de détails sur les ensembles de données et les mesures sont fournis dans le matériel supplémentaire.
Ligne de base Notre méthode adopte la même structure, le même ensemble d'apprentissage et la même stratégie d'apprentissage que le modèle naturel, mais elle n'utilise pas le modèle 3D de l'objet. Il est reporté comme "Baseline" dans notre tableau, correspondant au réseau de la Figure 2,Il n'y a pas d'encodeurs de forme affichés en bleu clair. Nous rapportons également une deuxième ligne de base visant à évaluer l'importance de la précision du modèle 3D pour notre méthode de travail. Nous avons utilisé notre méthode avec précision, mais au fil du temps, nous avons remplacé les formes 3D des objets dans les images de test par des formes 3D aléatoires de la même classe. Ceci est rapporté dans le tableau comme 'Notre(RS)'.

4.1 Estimation de la pose basée sur la supervision de la classification

Nous testons d'abord sur les catégories cibles contenues dans le jeu de données. On peut constater que l'utilisation du modèle 3D de la cible peut améliorer considérablement l'effet d'estimation de la pose.
Nous testons notre méthode sur Object3D, qui possède la plus grande variété de modèles, de modèles 3D et d'images. Nous présentons les résultats dans le tableau 1. Tout d'abord, l'une des conclusions les plus importantes est que lors de l'utilisation des informations du modèle 3D, peu importe l'utilisation du nuage de points ou du rendu, une amélioration significative des performances peut être obtenue, ce qui vérifie l'efficacité de notre méthode. Deuxièmement, l'utilisation de rendus multi-vues (MV) pour représenter les modèles 3D surpasse les représentations basées sur les nuages ​​de points (PC) [37]. Nous ne testons donc que la méthode MV dans la suite de cette section. Troisièmement, tester le réseau avec des formes aléatoires (RS) au lieu de formes réelles dans les catégories, ne fournissant que des informations de classe sans informations 3D précises, permet d'obtenir de meilleurs résultats que d'utiliser le modèle de base, mais pire que d'utiliser le modèle 3D exact, ce qui montre que notre méthode peut utiliser efficacement les informations 3D pour améliorer les performances de détection. En fin de compte, nous avons constaté que même nos performances de détection de modèle de base dépassaient presque StarMap [54], en particulier dans cinq catégories (fers, couteaux, stylos, fusils, pantoufles) la détection sur StarMap n'est pas aussi bonne que notre réseau, qui peut être This est parce que les méthodes basées sur la détection de points clés ne conviennent pas aux objets petits et étroits.
Tableau 1Tableau 1 : Estimation de pose sur ObjectNet3D [49]. Les ensembles d'apprentissage et de test sont les mêmes données que [54] ; pour les expériences sur de nouvelles catégories, l'ensemble d'apprentissage contient 80 catégories et l'ensemble de test contient les 20 autres catégories. * Formation conjointe avec formation à la détection et estimation de la pose, en utilisant des boîtes englobantes estimées pour les tests

insérez la description de l'image iciTableau 2 : Estimation de pose sur le jeu de données Pascal3D+ [48].* est basé sur des points clés, + n'est pas formé sur des données ImageNet, mais formé sur des images rendues par le réseau ShapeNet.
insérez la description de l'image ici

Nous avons ensuite évalué notre méthode sur le jeu de données Pascal3D+. Les résultats sont présentés dans le tableau 2. Fait intéressant, alors que nos résultats de base sont bien en deçà des résultats de l'état de l'art, l'ajout de notre réseau d'analyse de forme fournit à nouveau des améliorations très claires, avec des résultats à égalité avec les meilleures méthodes connues pour la classification des classes et les performances. Surpasse les méthodes de classification des classes inconnues. . Mais il faut noter que le modèle 3D fourni dans Pascal3D+ n'est qu'une approximation extrêmement grossière du modèle 3D réel. De plus, comme prévu, l'utilisation d'une forme de modèle aléatoire dans une classe surpasse la méthode de base sans modèle, mais pire que de fournir un modèle exact.
Enfin, nos résultats de détection sur le jeu de données Pix3D sont présentés dans le tableau 3. Semblable à d'autres méthodes. Nos modèles sont purement entraînés sur des données synthétiques et testés sur des données réelles sans aucun réglage fin. De même, nous pouvons observer que l'ajout d'informations de forme 3D entraîne une amélioration importante des performances, de 23,9 % à 36 %, ACCπ/6. Notez que notre méthode surpasse de manière significative même le modèle de base basé sur les catégories. Nous pensons que cela est dû au fait que Pix3D fournit des modèles 3D de bien meilleure qualité qu'ObjectNet3D et Pascal3D+. Cette hypothèse est soutenue par le fait que nos résultats étaient bien pires lorsqu'ils étaient présentés avec un modèle aléatoire de la même classe.
Par conséquent, les conclusions obtenues sur trois jeux de données standard sont cohérentes et valides : (I) l'utilisation de modèles 3D apporte une nette amélioration (par rapport à la "méthode de base"), (ii) notre méthode est capable d'utiliser efficacement les informations 3D (par rapport à l'estimation avec une forme aléatoire "RS" dans la catégorie).

4.2 Estimation de pose sur des classes inconnues

Nous nous concentrons maintenant sur la généralisation aux classes inconnues, qui est l'objectif principal de notre approche. Nous discutons d'abord les résultats sur les jeux de données ObjectNet3D et Pix3D. Nous présentons ensuite des résultats qualitatifs et quantitatifs sur les images ImageNet Hors sur le jeu de données LINEMOD très différent.
Nos résultats sont présentés dans le tableau 1 (en bas) lorsqu'ils sont testés sur la nouvelle classe d'ObjectNet3D. Nous utilisons la même chose que [54], divisant les données en 80 catégories d'entraînement et 20 catégories de test. Sans surprise, toutes les méthodes perdent en précision lors du test de modèles qui ne sont pas dans l'ensemble d'apprentissage. En fait, le modèle de base fonctionne toujours très bien en raison de la présence de catégories similaires dans l'ensemble d'apprentissage. Cependant, les avantages de notre méthode sont plus prononcés que dans le cas supervisé, et notre méthode MV améliore légèrement les performances par rapport à la méthode PC. De même, nous supprimons les catégories présentes dans Pix3D de l'ensemble d'apprentissage synthétique ShapeNet [2] et montrons les résultats des tests sur Pix3D dans le tableau 3 (en bas). Encore une fois, la précision diminue pour toutes les méthodes, mais l'effet est plus prononcé avec des modèles 3D précis.
Dans les expériences ObjectNet et Pix3D, les catégories d'objets de test sont complètement nouvelles, mais toujours similaires à celles contenues dans l'ensemble d'apprentissage. Nous nous concentrons maintenant sur l'évaluation de notre réseau formé sur des objets complètement différents à l'aide d'images synthétiques générées à partir des formes d'artefacts de l'ensemble de données ShapeNetCore [2].
Nous obtenons d'abord des résultats qualitatifs en estimant la pose d'un cheval dans des images ImageNet à l'aide d'un modèle 3D de cheval fixe [7] à partir d'un référentiel de modèles en ligne. En fait, les chevaux ont une métamorphose plus limitée que les autres animaux. Bien que cela ne fonctionne pas pour toutes les images, celles pour lesquelles le réseau a donné la plus grande confiance ont été très bien détectées. Dans la figure 3, nous montrons les images les plus fiables pour différentes poses, et nous fournissons plus de résultats dans le matériel supplémentaire. Notez le très fort écart d'apparence entre le modèle 3D rendu et l'image de test.
Enfin, pour vérifier davantage la capacité de généralisation de notre réseau, nous l'évaluons sur des objets sans caractéristiques de texture de LINEMOD [15], et les résultats sont présentés dans le tableau 4. Cet ensemble de données se concentre sur des alignements très précis, alors que la plupart des méthodes recommandent d'abord d'estimer les alignements grossiers, puis de les affiner avec des méthodes spécifiques. Notre méthode fournit un alignement grossier et le complète en utilisant la récente méthode de raffinement DeepIM [25]. Notre méthode obtient des résultats inférieurs à l'état de l'art, mais toujours très impressionnants. En fait, notre réseau n'utilise jamais d'objets comme les modèles 3D dans l'ensemble de données LINEMOD pendant la formation, tandis que tous les autres modèles de base sont spécialement formés pour chaque instance d'objet sur de vraies images de formation, à l'exception de SSD-6D [17], qui utilise des modèles 3D précis. mais pas d'images réelles, et a un très faible degré d'alignement grossier. Par conséquent, notre approche est très différente de tous les modèles de base car elle ne nécessite pas que les sujets de test soient disponibles au moment de la formation, ce qui, selon nous, est un scénario d'application robotique plus réaliste. Nous sommes sûrs que notre méthode fournit une précision utilisable par ce critère, ce qui est un très bon résultat.
insérez la description de l'image ici
insérez la description de l'image ici

5. Conclusion

Nous proposons une nouvelle méthode d'estimation de pose profonde qui prend des modèles d'objets 3D en entrée du réseau. Nous démontrons les avantages de notre méthode en termes de précision et obtenons une plus grande précision sur plusieurs ensembles de données d'estimation de pose standard. Plus important encore, nous avons montré que notre méthode est une méthode d'apprentissage en profondeur entièrement générale pour l'estimation de pose qui peut être réalisée indépendamment l'une de l'autre sur les ensembles d'entraînement et de test. Sur l'ensemble de données LINEMOD, les performances objectives sont également atteintes sans aucune formation spécifique, malgré les différences de domaine entre les données de formation synthétiques et les images réelles utilisées pour les tests.

Je suppose que tu aimes

Origine blog.csdn.net/onepunch_k/article/details/122287191
conseillé
Classement