Auteur : Li Ruifeng
Titre de l'article
Apprentissage de prototypes pour le paiement automatique
Source de papier
IEEE TMM
Lien papier
https://ieeexplore.ieee.org/document/10049664/
lien de code
https://github.com/msfuxian/PLACO
En tant que framework d'IA open source, MindSpore apporte une collaboration industrie-université-recherche et développeurs dans des scénarios complets de collaboration périphérique-cloud, un développement minimaliste, des performances ultimes, une pré-formation en IA à très grande échelle, un développement minimaliste et un environnement sûr et digne de confiance. expérience, 2020.3.28 L'Open source compte plus de 5 millions de téléchargements. MindSpore a pris en charge des centaines de documents de conférence de premier plan sur l'IA, est entré dans l'enseignement de plus de 100 universités et est disponible dans le commerce sur plus de 5 000 applications via HMS. développeurs et se trouve dans le centre de calcul de l'IA, de la finance, de la fabrication intelligente, de la finance, du cloud, du sans fil, des communications de données, de l'énergie, des consommateurs 1+8+N, des voitures intelligentes et d'autres scénarios de voiture cloud de pointe sont progressivement largement répandus. utilisé, et c'est le logiciel open source avec l'indice Gitee le plus élevé. Tout le monde est invité à participer aux contributions open source, aux kits, à l'intelligence collective modèle, à l'innovation et aux applications industrielles, à l'innovation algorithmique, à la coopération universitaire, à la coopération en matière de livres d'IA, etc., et à contribuer à vos cas d'application du côté cloud, côté appareil, côté périphérie et domaines de sécurité.
Grâce au soutien massif de SunSilicon MindSpore de la part de la communauté scientifique et technologique, du monde universitaire et de l'industrie, les articles sur l'IA basés sur SunSilicon MindSpore représentaient 7 % de tous les frameworks d'IA en 2023, se classant au deuxième rang mondial pendant deux années consécutives. toutes les universités Avec le soutien des enseignants, nous continuerons à travailler dur ensemble pour faire de la recherche et de l'innovation en IA. La communauté MindSpore soutient les meilleures recherches sur les articles de conférence et continue de produire des résultats originaux en matière d'IA. Je sélectionnerai occasionnellement d'excellents articles à promouvoir et à interpréter. J'espère que davantage d'experts de l'industrie, du monde universitaire et de la recherche coopéreront avec MindSpore pour promouvoir la recherche originale sur l'IA. La communauté Shengsi MindSpore continuera à soutenir l'innovation et les applications de l'IA. de Shengsi MindSpore Pour le 16ème article de la série d'articles de la conférence AI, j'ai choisi d' interpréter un article de l'équipe du Dr Wei Xiushen de l'École d'informatique et d'ingénierie de l'Université des sciences et technologies de Nanjing . pour remercier tous les experts, professeurs et camarades de classe pour leurs contributions.
MindSpore vise à atteindre trois objectifs majeurs : un développement facile, une exécution efficace et une couverture complète des scénarios. Grâce à l'expérience d'utilisation, MindSpore, un framework d'apprentissage en profondeur, se développe rapidement et la conception de ses différentes API est constamment optimisée dans une direction plus raisonnable, plus complète et plus puissante. En outre, divers outils de développement qui émergent constamment de Shengsi aident également cet écosystème à créer des méthodes de développement plus pratiques et plus puissantes, telles que MindSpore Insight, qui peut présenter l'architecture du modèle sous la forme d'un diagramme et peut également surveiller dynamiquement divers aspects. du modèle pendant l'exécution. Les modifications des indicateurs et des paramètres rendent le processus de développement plus pratique.
Cet article concerne principalement les problématiques liées à la détection de cible. Grâce à la détection de cible, il est possible de détecter avec précision des produits de vente au détail de différentes catégories et quantités dans une image, et enfin d'obtenir une liste de courses correspondant à « catégorie de produit : quantité de produit ». Une partie du code pour la détection de cibles peut être basée sur la documentation officielle de MindSpore, ou sur le code et les modèles liés à la détection de cibles fournis par la communauté. Il peut facilement réaliser les exigences de l'expérience de cet article, ce qui est très pratique et rapide. .
01
Fond de recherche
Le règlement visuel des produits de vente au détail est un sous-domaine de l'industrie de la vente au détail intelligente. Ses scénarios d'application courants sont les zones dotées de caisses sans personnel telles que les supermarchés, les magasins et les dépanneurs. Les clients placent les produits de détail qu'ils souhaitent acheter à la caisse, puis. a Des caméras à position fixe capturent des images de ces articles de vente au détail, qui passent par un système de paiement visuel automatique capable d'identifier les catégories de produits et de les compter avec précision, et enfin de produire une liste de courses complète avec le montant total.
Le cœur de la tâche de règlement visuel des produits de vente au détail consiste à identifier et à compter avec précision les produits de vente au détail dans l'image. Cependant, cette tâche présente trois défis principaux, à savoir les données sur les produits de vente au détail à grande échelle et les écarts de domaine entre les exemples de produits uniques et les images de règlement. et les différences entre les catégories de produits. Pour relever ces défis, Wei et al. ont proposé une méthode de base pour un cadre de détection d'objets qui comble les différences et les écarts entre les deux domaines en synthétisant et en restituant des images de paiement de produits à partir d'exemples de produits uniques segmentés. De même, IncreACO, DPNet et DPSNet améliorent la stratégie de rendu synthétique de Wei et al. pour obtenir une meilleure adaptabilité de domaine, favorisant ainsi l'amélioration de la précision de l'ACO. De plus, S2MC2 utilise également la couche d'inversion de gradient comme méthode d'adaptation du domaine de la couche de fonctionnalités, remplaçant la stratégie de rendu synthétique.
Figure 1 Diagramme schématique du règlement visuel des produits de vente au détail
02
présentation de l'équipe
Groupe d'intelligence visuelle et de perception (VIP), dirigé par le professeur Wei Xiushen . L'équipe a publié dans des revues internationales de premier plan dans des domaines connexes tels que IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, "Chinese Science: Information Science", etc., ainsi que dans des conférences internationales de premier plan telles que NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI, etc. Il a publié plus de cinquante articles et des travaux connexes ont remporté un total de 7 championnats du monde dans des compétitions internationales faisant autorité dans le domaine de la vision par ordinateur, notamment DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 et Analyse de la personnalité apparente 2016.
03
Introduction au document
Dans cet article, nous proposons une méthode appelée "Prototype Learning for Retail Merchandise Visual Checkout (PLACO)", qui tente de résoudre des exemples d'articles uniques (à titre de formation) et l'image de règlement (à titre de test), la structure globale est présentée dans Figure 2. Plus précisément, un prototype est une représentation vectorielle qui représente avec précision la sémantique d'une catégorie dans l'espace visuel (c'est-à-dire une véritable représentation de catégorie), généralement mise en œuvre par des centres de fonctionnalités spécifiques à une catégorie. Un autre avantage de l’utilisation de prototypes de produits pour la représentation visuelle des marchandises vendues au détail est que, en plus de potentiellement résoudre les différences de domaine, cela évite le problème des vues multiples des exemples de produits uniques. Les prototypes de catégorie représentent plus précisément la sémantique de catégorie d'un produit que les exemples d'images à vue unique ou à vues multiples, ce qui prouve également sa généralité et sa robustesse. De plus, nous avons conçu un module d'alignement prototype comme solution d'adaptation de domaine. Après avoir obtenu des exemples de produits uniques et des prototypes de catégorie dans le domaine des images de règlement, nous obtenons une adaptation de domaine en réduisant la distance entre les prototypes homogènes et en élargissant la distance entre les prototypes hétérogènes pour améliorer la compacité intra-catégorie et la rareté inter-catégorie.
Figure 2 Diagramme schématique du cadre PLACO
Pour améliorer encore la capacité discriminante de ces classificateurs appris, nous développons une méthode de réarrangement discriminant pour améliorer leur capacité discriminante en ajustant les scores de prédiction de ces recommandations de produits, voir Figure 3. Plus précisément, nous classons le score de prédiction de la catégorie réelle le plus élevé pour améliorer la confiance de la prédiction, tout en reclassant le score de fond en deuxième position en fonction des caractéristiques du classificateur de fond, c'est-à-dire une stratégie de réarrangement difficile. De plus, compte tenu des caractéristiques fines des éléments, nous introduisons également une variable slack comme stratégie de réarrangement doux afin de fournir des possibilités de classement raisonnables pour les scores de prédiction des produits à granularité fine. De plus, nous avons ajouté une perte de reconnaissance multi-étiquettes à PLACO pour modéliser la cooccurrence d'articles dans les images de paiement, améliorant ainsi encore la précision du paiement visuel des articles de vente au détail.
Figure 3 Diagramme schématique de deux méthodes de réarrangement discriminant
04
Résultats expérimentaux
Nous avons mené des expériences comparatives sur les performances de contrôle visuel de sept méthodes sur l'ensemble de données RPC. Parmi eux, la méthode de Wei et al., IncreACO, DPNet et DPSNet utilisent toutes des données synthétiques et des données de rendu pour s'entraîner conjointement. Le cadre de base de détection de cible de ces méthodes est Faster RCNN ou Mask RCNN utilise des annotations au niveau des points plus faibles pour. formation supervisée. Il s'agit d'une méthode de comptage d'objets au niveau des points basée sur des cartes de densité ; PSP est la méthode de la version conférence de PLACO dans cet article. PLACO a amélioré le module d'alignement prototype pour PSP. Les deux méthodes ont deux piliers de détection de cible, Faster RCNN. et Cascade RCNN Résultats expérimentaux du cadre. Étant donné que les données RPC sont divisées en trois niveaux : facile, moyen et difficile selon la catégorie et la quantité de produits de vente au détail dans l'image, nous rapportons également les résultats de ces trois niveaux et le résultat moyen global lors de la communication des résultats expérimentaux.
Il ressort des résultats que la méthode PLACO présentée dans cet article a fondamentalement obtenu les meilleurs résultats dans les cadres de détection de cible du réseau principal Faster RCNN et Cascade RCNN, en particulier dans la précision de règlement de l'indicateur de détection principal (cAcc). "↑" dans le tableau indique que plus le résultat est grand, meilleures sont les performances. "↓" indique que plus le résultat est petit, meilleures sont les performances. Les meilleurs résultats basés sur le framework Faster RCNN sont affichés en bleu gras et le. les meilleurs résultats basés sur le cadre Cascade RCNN sont surlignés en rouge.
Tableau 1 Résultats de comparaison du règlement visuel des produits de vente au détail à l'aide de sept méthodes sur l'ensemble de données RPC
05
Résumé et perspectives
Cet article propose un prototype de méthode d'apprentissage PLACO pour le paiement automatique, comprenant un module d'apprentissage de classificateur basé sur un prototype, un module de réarrangement discriminatif et un module d'alignement de prototype. Le module d'apprentissage du classificateur basé sur un prototype a été développé pour réduire implicitement l'écart de domaine entre les exemples utilisés comme formation et les images de paiement utilisées comme tests. De plus, cet article adopte le module d'alignement de prototype comme solution explicite d'adaptation de domaine. Cet article conçoit une méthode de reclassement discriminante pour améliorer les performances de PLACO en introduisant des capacités plus discriminantes dans l'apprentissage des classificateurs et dans les catégories à granularité fine. Cet article applique une perte multi-étiquettes pour simuler la co-occurrence de produits dans les images de paiement. Sur l'ensemble de données de référence RPC à grande échelle, PLACO a atteint une précision de règlement de 91,03 %, soit 2,89 % de plus que la meilleure méthode précédente. Étant donné que cet article concerne principalement des problèmes de détection de table mu, vous pouvez facilement mettre en œuvre les expériences requises dans cet article selon les cas de documents officiels de MindSpore ou les codes et modèles liés à la détection de cible fournis par la communauté, ce qui est très pratique et rapide.
Un programmeur né dans les années 1990 a développé un logiciel de portage vidéo et en a réalisé plus de 7 millions en moins d'un an. La fin a été très éprouvante ! Google a confirmé les licenciements, impliquant la « malédiction des 35 ans » des codeurs chinois des équipes Flutter, Dart et . Python Arc Browser pour Windows 1.0 en 3 mois officiellement la part de marché de GA Windows 10 atteint 70 %, Windows 11 GitHub continue de décliner l'outil de développement natif d'IA GitHub Copilot Workspace JAVA. est la seule requête de type fort capable de gérer OLTP+OLAP. C'est le meilleur ORM. Nous nous rencontrons trop tard.