"Inattendu" vol 27. Revue | Gao Xiang, expert bien connu du SLAM visuel : Parlons de l'application pratique du SLAM visuel dans les domaines de la conduite autonome et de la robotique

Suite au livre à succès « Quatorze conférences sur le SLAM visuel », M. Gao Xiang a lancé un nouveau livre « Technologie SLAM dans la conduite autonome et les robots ». Le livre a attiré beaucoup d'attention depuis sa publication, offrant aux lecteurs une compréhension complète et approfondie de la technologie SLAM.

Lors de la 27e session de partage à huis clos « Yu Jian », je suis très heureux d'inviter le célèbre expert visuel du SLAM Gao Xianglai à partager avec vous l'application du SLAM laser et visuel dans la conduite autonome et les robots, ainsi que ses réflexions. sur l'entrepreneuriat SLAM, des opinions, et mener des échanges et des interactions d'assurance qualité avec des camarades de classe en ligne.

Lors de la séance de discussion à micro ouvert de l'événement, tout le monde a posé des questions sur le SLAM les unes après les autres. Ma « porte » battait également son plein pour enregistrer l'essence du texte de questions-réponses de M. Gao Xiang, édité, trié et présenté. à tout le monde~

Si vous souhaitez en savoir plus sur le travail visuel lié au SLAM, vous êtes également invités à ajouter le WeChat de Xiaojiang (thexiaojiang), à rejoindre la communauté de communication SLAM et à interagir avec davantage de petits partenaires dans des domaines connexes !

Présentation des invités

image

Gao Xiang

Expert reconnu en SLAM visuel

Originaire de Huzhou, Zhejiang, il est titulaire d'un doctorat au département d'automatisation de l'université Tsinghua et d'un chercheur postdoctoral à l'université technique de Munich. Il est engagé depuis longtemps dans la recherche sur les algorithmes de vision par ordinateur, de positionnement et de construction de cartes, et a successivement été ingénieur senior en algorithmes et directeur d'algorithmes en conduite autonome dans des entreprises telles que Baidu, Zhixingzhe et Mainline Technology. Ses principaux travaux d'auteur et de traduction incluent "Fourteen Lectures on Visual SLAM: From Theory to Practice", "State Estimation in Robotics", "SLAM Technology in Autonomous Driving and Robotics", et a publié dans des publications internationales telles que ICRA, IROS et RA. -Lettres. Il a publié de nombreux articles dans des revues et conférences de renom.

Page d'accueil :

https://www.techbeat.net/grzytrkj?id=183

1. Quels sont les freins techniques au SLAM dans les domaines de la conduite autonome et de la robotique ? Quelle est la situation du développement et des applications dans le pays et à l’étranger ?

Gao Xiang : Le principal obstacle à la technologie SLAM (localisation en temps réel et construction de cartes) dans le domaine de la conduite autonome et de la robotique est que la réalisation d'un algorithme stable nécessite un grand nombre de cas d'application pratiques et une accumulation d'expérience. Dans le monde universitaire, les ensembles de données sont relativement petits, tandis que l’industrie est confrontée à des scénarios d’application à plus grande échelle et plus complexes. Il n’y a pas beaucoup d’écart technologique entre le laboratoire et l’industrie car la stabilité de l’algorithme est étroitement liée à l’effet réel du produit. Dans le monde industriel, le temps d’itération d’un produit et le nombre de cas d’application pratiques jouent un rôle clé dans la stabilité et les performances de l’algorithme.

En termes de développement au pays et à l'étranger, il existe des différences dans l'orientation et les méthodes de recherche de la technologie SLAM dans les différents laboratoires, mais ils se concentrent tous sur la résolution de problèmes pratiques et l'amélioration de la qualité des produits. En termes d'application, la technologie SLAM a été appliquée pratiquement dans les balayeuses, les véhicules de balayage et d'autres produits, et les entreprises qui vendent le plus de produits ont tendance à avoir des performances plus stables.

2. Comment mettre en œuvre des algorithmes efficaces de SLAM et de conduite autonome dans des applications en temps réel pour répondre aux exigences en temps réel et fonctionner sur des systèmes embarqués avec des ressources informatiques limitées ?

Gao Xiang : Le principal problème dans la réalisation d'algorithmes SLAM et de conduite autonome efficaces dans des applications en temps réel est la limitation des ressources informatiques. Actuellement, la plupart des algorithmes de positionnement fonctionnent sans problème sur les systèmes embarqués, tels que le matériel fourni par des sociétés nationales comme Horizon et Black Sesame, ainsi que par des sociétés étrangères comme Nvidia. La plupart des entreprises nationales créeront une couche d'emballage sur le matériel Nvidia et ajouteront leurs propres produits. Du point de vue du positionnement, ce n'est pas un gros problème. Pour la cartographie, l'approche traditionnelle consiste toujours à exécuter sur le PC ou le serveur. Si vous souhaitez implémenter des fonctionnalités plus complexes, telles que la sémantique, le BEV ou la génération de cartes en temps réel, le flux global du projet sera différent en fonction de la complexité de la fonctionnalité que vous souhaitez implémenter.

3. Comment fusionner efficacement les données de plusieurs capteurs, tels que le lidar, la caméra, l'unité de mesure inertielle (IMU), etc., pour améliorer la précision et la robustesse du positionnement et de la perception environnementale ?

Gao Xiang : Pour réaliser la fusion des capteurs et améliorer la précision et la robustesse du positionnement et de la perception de l'environnement, nous devons d'abord nous concentrer sur la robustesse pour faire face à diverses situations anormales. Lors de la conception de la structure du système, tenez compte de l'apparition de situations anormales, telles que la configuration de plusieurs capteurs dans la voiture comme sauvegarde redondante. Pour différents scénarios, des exigences spécifiques doivent être clarifiées, telles que l'espacement et la largeur des colonnes du parking, etc. Au stade du laboratoire, il est difficile de prévoir la complexité et la richesse du domaine, il est donc nécessaire de tester pleinement dans des scénarios réels, de résoudre divers problèmes complexes et d'optimiser en permanence l'algorithme pour s'adapter à différentes situations.

Dans les applications pratiques, cela est normal la plupart du temps, c'est pourquoi des filtres, des graphiques factoriels et d'autres méthodes peuvent être utilisés pour le traitement des données. Lorsque des situations anormales surviennent, des mécanismes redondants sont nécessaires pour compenser. Par exemple, en plus de son propre DR, une voiture sera également équipée d'un système vidéo VO automatique ou d'un compteur kilométrique radar en guise de secours redondant.

4. Par rapport au nuage de points clairsemé traditionnel et à la carte de profondeur, la représentation implicite actuelle de la scène représentée par le champ de rayonnement présente les avantages d'une haute résolution et d'une modélisation directe à 360 degrés. Quels sont les défis liés à la combinaison de ces représentations implicites avec le cadre SLAM ?

Gao Xiang : Par rapport au nuage de points clairsemé traditionnel et à la carte de profondeur, la représentation implicite de la scène représentée par le champ de rayonnement présente les avantages d'une haute résolution et d'une modélisation directe à 360 degrés. Cependant, sa combinaison avec le cadre SLAM se heurte à certains défis : cette orientation est relativement nouvelle, elle fait encore l’objet de débats passionnés dans la communauté universitaire et il existe de nombreuses incertitudes. L’industrie est généralement plus conservatrice et n’envisage les candidatures qu’une fois que le monde universitaire est parvenu à un consensus sur un problème.

La plupart des algorithmes actuellement utilisés dans l’industrie sont des algorithmes qui ont été stabilisés par la communauté universitaire il y a quelques années, et la recherche sur la combinaison de la représentation implicite et du cadre SLAM en est encore à ses débuts. L’innovation au niveau des méthodes doit donc encore être améliorée. De plus, la représentation implicite des scènes comporte encore de nombreuses incertitudes en termes de structure de réseau. Désormais, chacun mène sa propre recherche et développement, et dans l’ensemble, cela en est à un stade relativement précoce. De nombreuses études combinent des méthodes existantes plutôt que de proposer des méthodes complètement nouvelles. Au niveau de chaque module, l'approche peut être moins innovante. Bien entendu, cela signifie également qu’il reste encore de nombreuses directions à explorer.

5. Comment construire un ensemble de données à grande échelle adapté au SLAM et à la conduite autonome, et définir des critères et des indicateurs d'évaluation afin de comparer et d'évaluer les performances de différents algorithmes ?

Gao Xiang : La création d'ensembles de données à grande échelle adaptés au SLAM et à la conduite autonome nécessite de nombreuses considérations. Premièrement, les grandes entreprises peuvent disposer de leurs propres ensembles de données à grande échelle, mais elles ne peuvent pas les rendre publiques. Les pratiques dans les écoles peuvent différer, car le nombre de véhicules est limité et les données collectées sur une période prolongée sont relativement limitées. S'il est réalisé dans une entreprise, une méthode d'apprentissage similaire peut être utilisée, en utilisant un grand nombre de véhicules et de bases de données en arrière-plan pour établir des serveurs cloud pour collecter et stocker les données, et en utilisant un système spécialisé pour la maintenance et les tests.

Dans ce processus, l’établissement et la maintenance des infrastructures, notamment des bases de données, des systèmes de stockage, etc., sont essentiels. À cet égard, les sociétés Internet ont des avantages : des sociétés telles que Baidu ont plutôt bien réussi dans la construction d'infrastructures. Dans le domaine de la conduite autonome, la taille de l'ensemble de données est très importante. Dans le monde universitaire, les ensembles de données représentent généralement plusieurs centaines de gigaoctets, tandis que l'industrie a besoin d'ensembles de données plus volumineux, par exemple des dizaines ou des centaines de téraoctets.

En ce qui concerne les tests et le stockage, vous devez réfléchir à la manière de tester sur plusieurs machines et à la manière de collecter et d'organiser les résultats des tests. Cela nécessite un système très stable. En résumé, la création d’ensembles de données à grande échelle et la définition de critères et d’indicateurs d’évaluation sont un processus difficile qui nécessite un soutien technique et des investissements sous de nombreux aspects.

6. Comment continuer à utiliser les données cartographiques de nuages ​​de points précédemment accumulées sur des modèles qui n'utilisent pas le lidar pour améliorer l'efficacité et éviter le redéveloppement de nouvelles orientations techniques ?

Gao Xiang : Il existe plusieurs options permettant aux modèles qui n'utilisent pas le lidar dans le domaine de la conduite autonome de continuer à utiliser les données cartographiques de nuages ​​de points accumulées précédemment. La première consiste à créer des cartes et des positions en détectant des caractéristiques telles que les lignes de voies et les murs dans des scènes spécifiques telles que les garages. Cependant, cette méthode repose fortement sur la stabilité et la précision des résultats de détection. Une autre option consiste à utiliser la technologie de vision pour reconstruire des nuages ​​de points, mais sa capacité de généralisation reste encore à vérifier. La technologie actuelle des capteurs est encore en développement. Si vous utilisez des jumelles pour construire un nuage de points, son essence est similaire à celle du lidar à semi-conducteurs, mais la précision du nuage de points ne peut pas être fixée comme le radar, mais est liée à la distance mesurée.

Concernant l'idée d'utiliser des méthodes visuelles pour créer des cartes locales et d'utiliser la correspondance des fonctionnalités Surf, je pense que la faisabilité doit prendre en compte la stabilité et la précision de la cartographie visuelle. La cartographie visuelle doit être basée sur des données tridimensionnelles fiables, et la vision binoculaire peut être affectée par des facteurs tels que la texture et la couleur, entraînant une incertitude quant à la position spatiale. Cela nous oblige à considérer la cohérence et la stabilité des données visuelles, ainsi que le degré de concordance avec les données radar.

Il existe une équipe en Corée du Sud qui effectue la reconstruction du périmètre, puis la cartographie des nuages ​​de points pour le positionnement en intérieur. Mais je n’ai vu que leur démo jusqu’à présent et je n’ai pas vu d’applications spécifiques aux produits. Je pense que les radars à semi-conducteurs pourraient devenir moins chers à l'avenir et que les équipements TOF extérieurs pourraient également devenir populaires, ce qui fournira des données de perception plus stables pour la conduite autonome.

En général, la cohérence et la stabilité de la carte du nuage de points visuellement reconstruite peuvent varier à mesure que la scène et la trajectoire du véhicule changent. Ce que nous devons considérer, c'est comment garantir la stabilité et la cohérence des données visuelles dans différentes scènes et états de mouvement afin d'obtenir une précision qui correspond aux données radar.

7. Avec la tendance ultérieure à la production en masse de conduite autonome L2 avec des cartes lumineuses ou même sans cartes, quel rôle le SLAM peut-il continuer à jouer ?

Gao Xiang : Concernant les cartes lumineuses ou pas de cartes, cela n'annule pas complètement la carte, mais transforme la carte construite hors ligne en un processus de construction en ligne en temps réel côté véhicule. Du côté des voitures, une plus grande attention est accordée à la cartographie au niveau de la route, c'est-à-dire aux voies et aux extensions de route. Bien que l’approche dominante actuelle puisse atteindre cet objectif, son effet est très incertain et pourrait ne pas satisfaire toutes les situations. Je suis sceptique quant à la conduite autonome de niveau L4, pensant qu'elle ne sera peut-être pas en mesure d'atteindre des exigences de précision élevées.

Maintenant tout le monde fait du BEV, mais il sera peut-être saturé dans quelques années. Pour atteindre une conduite autonome de niveau L4, elle s’appuie fortement sur des cartes haute définition, ce qui pose effectivement problème. Je pense que BEV ne sera peut-être pas en mesure d'atteindre ce niveau. Si nous voulons maintenir un faible taux de rachat et le faire via BEV, je ne pense pas que nous puissions atteindre des fonctions L4 similaires. Cela nécessite de se demander s’il s’agit d’une fonction de niveau L2 ou d’une fonction de niveau L4.

Pour la fonction de stationnement, si la voiture est garée au bord de la place de stationnement, le conducteur se trouve en principe juste à côté de la voiture, à ce moment-là, il n'est pas nécessaire de poursuivre le taux de prise en charge. Mais si la voiture doit être garée sur une place de parking, cela implique des fonctions de niveau L4, car il est impossible pour le conducteur de revenir se garer après une panne. Atteindre la conduite autonome de niveau L4 nécessite l'utilisation de méthodes L4 traditionnelles, telles que des cartes de haute précision, des cartes radar, des cartes en nuages ​​de points, etc. pour la construction de parkings. Bien sûr, idéalement, il serait possible d'explorer en temps réel en marchant et de tout découvrir à l'intérieur, mais il n'est pas encore possible de mettre en œuvre de manière fiable cette fonction. Par conséquent, je pense que nous devrions toujours utiliser la routine L4, en nous concentrant davantage sur une maintenance légère, une génération rapide ainsi qu'une génération et une maintenance simplifiées d'images haute définition.

8. Que pensez-vous des avantages de la nouvelle structure organisationnelle de grande perception qui a émergé récemment dans certaines entreprises de conduite autonome, c'est-à-dire que les structures organisationnelles de cartographie de perception et de positionnement sont placées dans le même département ?

Gao Xiang : La nouvelle structure organisationnelle de perception à grande échelle qui a émergé dans les entreprises de conduite autonome place la perception et le positionnement des structures organisationnelles de cartographie dans le même département. Cette approche présente certains avantages. Dans l’ensemble, il vaudrait mieux maintenant examiner séparément L2 et L4. S’il s’agit d’une structure d’entreprise L2, un tel placement ne pose aucun problème. Actuellement, de nombreuses entreprises préconisent la suppression ou l’utilisation partielle de cartes de haute précision afin que les véhicules puissent identifier leur emplacement sur la base de marquages ​​routiers ou de marquages ​​sur la chaussée. Associer perception et localisation rend l’ensemble du système plus complet.

Cependant, le comportement global d’un robot ou d’un véhicule ne doit pas nécessairement suivre l’architecture L4 existante. De nombreuses entreprises L4 ne disposent pas de fonctions parfaites telles que le maintien de la voie, et l'ensemble du système repose trop sur des cartes et un positionnement de haute précision. Comment les véhicules doivent-ils réagir dans des situations telles que les tunnels ou les zones montagneuses où un positionnement de haute précision ne peut être pleinement garanti ? Cela nécessite un niveau plus élevé de personnel complet pour concevoir le comportement du véhicule.

Dans le même temps, dans les applications pratiques, il existe une contradiction entre les indicateurs d'utilisabilité et de précision du système. Si l'indice de précision ne peut pas répondre aux exigences, le véhicule devra s'arrêter. Par conséquent, lors de la conception de la structure de l’entreprise, vous devez réfléchir à la manière de résoudre cette contradiction. Cela nécessite un niveau plus élevé de personnel complet pour concevoir le comportement du véhicule afin de l'adapter à différents scénarios. Mettre la perception et le positionnement dans le même département peut aider à résoudre ce problème et à améliorer les performances et la stabilité des systèmes de conduite autonome.

9. Concernant la configuration des capteurs du robot humanoïde, devons-nous choisir le type binoculaire pour répondre aux besoins de perception et de positionnement compatibles, ou choisir le radar laser ou le capteur de profondeur pour garantir qu'il puisse fonctionner dans des situations extrêmes ? Comment prendre cette décision lorsqu’on démarre une entreprise de fabrication de robots humanoïdes ?

Gao Xiang : Concernant la configuration des capteurs des robots humanoïdes, il est nécessaire de clarifier les fonctions spécifiques et les objectifs commerciaux du robot, puis de sélectionner les capteurs correspondants en fonction de ces objectifs. Par exemple, si un robot est spécifiquement conçu pour saisir des objets, la configuration de ses capteurs sera claire. Si un robot humanoïde à usage général doit être construit, la sélection des capteurs sera plus compliquée et de multiples possibilités devront être envisagées.

Dans le processus de conception, le rôle du chef de produit est très important : il doit comprendre la technologie et ne peut pas proposer d'exigences fonctionnelles basées sur l'imagination, car ces exigences risquent de ne pas être satisfaites. La conception de robots humanoïdes doit prendre en compte des problèmes commerciaux et des objectifs fonctionnels spécifiques, puis en déduire la configuration de capteur requise.

10. Que pensez-vous des modes de fonctionnement et des difficultés techniques de Boston Dynamics ?

Gao Xiang : Cela a eu un certain impact sur l’industrie, mais n’a pas trouvé de bon modèle économique. Leur développement technologique reposait sur des investissements coûteux dans les premières années, ce qui entraîne aujourd'hui des difficultés de commercialisation. Par exemple, dans le domaine de la conduite autonome, des entreprises telles que Boston Dynamics, voire Google et Baidu, ont pour approche d'acheter le meilleur équipement du moment pour réaliser diverses fonctions quel que soit le coût, afin que l'effet de la conduite autonome soit meilleur. , mais le coût élevé le rend difficile à accepter pour les consommateurs.

Pour l’industrie de la robotique, les tendances de développement futures seront plus complexes. Les moteurs deviendront plus nombreux, les articulations deviendront plus complexes et les informations deviendront plus polyvalentes. En termes de marche autonome, on espère que le robot pourra réaliser des fonctions telles que la saisie automatique et la marche sur des routes complexes. Si vous continuez à exercer des activités telles que le nettoyage, la logistique ou la livraison de nourriture, la forme actuelle est relativement mature, ce qui pourrait réduire le coût des capteurs et augmenter la taille du marché à l'avenir.

Réaliser un robot doté de capacités autonomes de marche et de préhension nécessite un haut niveau de contenu technique. L’orientation générale est correcte, mais le fait de savoir qui fera des pas plus grands et qui fera des pas plus petits aura une incidence sur la rapidité et la certitude de la mise en œuvre.

11. Que pensez-vous de la situation actuelle et du développement futur de l'industrie de la robotique ?

Gao Xiang : À en juger par la situation actuelle, l'industrie de la robotique se développe rapidement et est à relativement grande échelle. Par rapport aux deux années précédentes, le contenu technique s'est amélioré et le développement de technologies dures a élargi l'ensemble de l'industrie, ce qui est une bonne tendance. Cependant, par rapport à la conduite autonome, l’industrie de la robotique accorde davantage d’attention aux coûts et à la production réelle des produits.

À l'heure actuelle, la plupart des gens recherchent et développent encore la technologie robotique, mais elle en est encore au stade pilote. Par rapport au taxi sans pilote original et à d'autres formes, il y a encore une grande différence. L'industrie de la robotique est plus pratique et doit prendre en compte des facteurs tels que le problème à résoudre, le coût de résolution de ce problème et la manière de vendre le produit.

C'est une dure vérité que les robots peuvent remplacer les humains. Si le coût peut être très bas, ils peuvent effectivement remplacer les humains pour certaines choses. L’industrie de la robotique dans son ensemble mérite d’être étudiée car c’est une chose pratique.


  À propos de la communauté d'intelligence artificielle TechBeat

TechBeat (www.techbeat.net) est affilié à Jiangmen Venture Capital et est une communauté de croissance qui rassemble les élites chinoises mondiales de l'IA.

Nous espérons créer davantage de services et d’expériences professionnels pour les talents en IA, accélérer et accompagner leur apprentissage et leur croissance.

Nous espérons que cela deviendra un lieu privilégié pour vous permettre d'acquérir des connaissances de pointe en IA, un terrain fertile pour partager vos derniers travaux et une base pour améliorer et combattre des monstres sur la voie de l'avancement de l'IA !

Introduction plus détaillée >> TechBeat, une communauté d'apprentissage et de croissance qui rassemble les élites chinoises mondiales de l'IA

Je suppose que tu aimes

Origine blog.csdn.net/hanseywho/article/details/132496944
conseillé
Classement