[Lecture de papier] Traduction du texte original du Visual Attention Network

[Lien papier] https://arxiv.org/abs/2202.09741

Résumé

  Bien qu’à l’origine conçus pour les tâches de traitement du langage naturel, les mécanismes d’auto-attention ont pris d’assaut plusieurs domaines de la vision par ordinateur. Cependant, la nature bidimensionnelle des images pose trois défis à l’utilisation de l’auto-attention en vision par ordinateur. (1) Traiter les images comme des séquences 1D ignore leur structure 2D ; (2) La complexité quadratique est trop coûteuse pour les images haute résolution ; (3) Elle capture uniquement l'adaptation spatiale et ignore l'adaptabilité des canaux. Dans cet article, nous proposons une nouvelle attention linéaire appelée Large Kernel Attention (LKA) pour rendre efficace la corrélation adaptative et à long terme de l'auto-attention tout en évitant ses défauts. De plus, nous proposons un réseau neuronal basé sur LKA, appelé Visual Attention Network (VAN). Malgré leur simplicité, les VAN surpassent les versions de taille similaire des ViT et des CNN dans de multiples tâches, notamment la classification d'images, la détection d'objets, la segmentation sémantique, la segmentation panoptique, l'estimation de pose, etc. Par exemple, VAN-B6 atteint une précision de 87,8 % sur le benchmark ImageNet tout en atteignant des performances de pointe (58,2 PQ) sur la tâche de segmentation panoramique. De plus, dans la tâche de segmentation sémantique du benchmark ADE20K, le mIoU de VAN-B2 dépasse SWIN-T de 4 % (50,1 contre 46,1), et l'AP dépasse 2,6 % (48,8 contre 46,2) dans la tâche de détection de cible. de l’ensemble de données COCO. Cela fournit à la communauté une nouvelle méthode de base simple mais puissante. Le code est disponible sur https://github.com/Visual-Attention-Network .

1. Préambule

  En tant qu'extracteur de fonctionnalités le plus élémentaire, le squelette visuel constitue une direction de recherche fondamentale dans le domaine de la vision par ordinateur. Au cours de la dernière décennie, les CNN sont devenus un sujet de recherche inaccessible en raison de leurs excellentes performances d’extraction de fonctionnalités. Après qu'AlexNet ait rouvert l'ère de l'apprentissage profond, certaines avancées ont été réalisées grâce à l'utilisation de réseaux plus profonds, d'architectures plus efficaces, de capacités multi-échelles et de mécanismes d'attention plus puissants, et une structure visuelle plus puissante a été obtenue. En raison de l'invariance de traduction et de la stratégie de fenêtre glissante partagée, les CNN sont intrinsèquement efficaces pour une variété de tâches de vision avec des entrées de tailles arbitraires. Les réseaux de base visuelle plus avancés obtiennent souvent des améliorations significatives des performances dans diverses tâches, notamment la classification d'images, la détection d'objets, la segmentation sémantique et l'estimation de pose.
  Sur la base des temps de réaction observés et des temps de transmission estimés des signaux le long des voies biologiques, les chercheurs en psychologie cognitive et en neurosciences pensent que le système visuel humain ne traite en détail qu'un sous-ensemble de stimuli possibles, laissant le reste à peine traité. L'attention sélective est un mécanisme important pour traiter les aspects combinatoires complexes de la vision. Le mécanisme d'attention peut être considéré comme un processus de sélection adaptatif basé sur des caractéristiques d'entrée. Depuis que le réseau d’attention complète a été proposé, le modèle d’auto-attention (également connu sous le nom de Transformer) est rapidement devenu l’architecture dominante dans le domaine du traitement du langage naturel.
  Récemment, Dosovitskiy et ses collègues ont proposé le ViT en introduisant le squelette du transformateur dans la vision par ordinateur, surpassant ainsi les célèbres CNN dans les tâches de classification d'images. Grâce à ses puissantes capacités de modélisation, le squelette visuel basé sur un transformateur a rapidement occupé le classement de diverses tâches, notamment la détection de cibles, la segmentation sémantique, etc.
Malgré leur succès remarquable, les opérations de convolution et d’auto-attention ont encore leurs défauts. L’opération de convolution utilise des poids statiques et manque d’adaptabilité, ce qui s’est avéré crucial. Et comme l’auto-attention a été conçue à l’origine pour des tâches de PNL unidimensionnelles, elle traite les images bidimensionnelles comme des séquences unidimensionnelles, ce qui détruit la structure bidimensionnelle clé de l’image. Le traitement d’images haute résolution est également difficile en raison de son calcul quadratique et de sa surcharge de mémoire. De plus, l’auto-attention est une attention particulière qui ne considère que l’adaptation de la dimension spatiale et ignore l’adaptation de la dimension canal, également importante pour les tâches visuelles.
  Dans cet article, nous proposons un nouveau mécanisme d'attention linéaire appelé attention à grand noyau (LKA), adapté aux tâches de vision. LKA absorbe les avantages de la convolution et de l’auto-attention, y compris les informations structurelles locales, la dépendance à long terme et l’adaptabilité. Dans le même temps, ils évitent également leurs inconvénients consistant à ignorer l’adaptabilité dans la dimension canal. Sur la base de LKA, nous proposons un nouveau squelette visuel appelé Visual Attention Network (VAN), qui surpasse considérablement les backbones bien connus basés sur CNN et Transformer. Les contributions de cet article sont résumées comme suit :

  • Nous concevons un nouveau mécanisme d'attention linéaire pour la vision par ordinateur, LKA, qui prend en compte les avantages de la convolution et de l'auto-attention tout en évitant leurs inconvénients. Sur la base de LKA, nous introduisons en outre une structure visuelle simple appelée VAN.
  • Nous avons montré dans des expériences approfondies que les VAN surpassent les ViT et les CNN de niveau similaire sur diverses tâches telles que la classification d'images, la détection d'objets, la segmentation sémantique, la segmentation d'instances et l'estimation de pose.
    insérer la description de l'image ici

2 Travaux connexes

2.1 Réseau neuronal convolutif

  Comment calculer efficacement des représentations de fonctionnalités puissantes est le problème le plus fondamental de la vision par ordinateur. Les réseaux de neurones convolutifs utilisent les informations de contexte local et l'invariance de traduction, ce qui améliore considérablement l'effet du réseau de neurones. Depuis AlexNet, CNN est rapidement devenu le cadre principal de la vision par ordinateur. Afin d'améliorer encore la convivialité, les chercheurs ont investi beaucoup d'efforts dans la profondeur et le poids des CNN. Notre travail présente des similitudes avec MobileNet, qui découple les convolutions standard en deux parties, les convolutions en profondeur et les convolutions ponctuelles (également connues sous le nom de convolutions 1 × 1). Notre méthode décompose les convolutions en trois parties : la convolution en profondeur, la convolution en profondeur et atreuse et la convolution ponctuelle. Grâce à cette décomposition, notre méthode est plus adaptée pour décomposer efficacement les grandes convolutions du noyau. Nous introduisons également un mécanisme d'attention dans notre méthode pour obtenir des propriétés adaptatives.

2.2 Méthode d'attention visuelle

  Le mécanisme d’attention peut être considéré comme un processus de sélection adaptative basé sur des caractéristiques d’entrée, introduit dans la vision par ordinateur dans la RAM. Il offre des avantages dans de nombreuses tâches de vision telles que la classification d'images, la détection d'objets et la segmentation sémantique. L'attention en vision par ordinateur peut être divisée en quatre catégories de base : l'attention de canal, l'attention spatiale, l'attention temporelle et l'attention de branche, ainsi que leurs combinaisons telles que l'attention de canal et l'attention spatiale. Chaque type d’attention a des effets différents dans les tâches visuelles.
  L’auto-attention issue de la PNL est un mécanisme d’attention particulier. Il joue un rôle de plus en plus important dans la vision par ordinateur en raison de son efficacité à capturer les dépendances à long terme et son adaptabilité. Divers réseaux d’auto-attention profonde (également connus sous le nom de transformateurs de vision) ont atteint des performances nettement supérieures à celles des CNN traditionnels sur différentes tâches de vision, démontrant ainsi le grand potentiel des modèles basés sur l’attention. Cependant, l’attention personnelle a été conçue à l’origine pour la PNL. Il présente trois inconvénients lorsqu’il s’agit de tâches de vision par ordinateur. (1) Il traite l’image comme une séquence unidimensionnelle et ignore la structure bidimensionnelle de l’image. (2) Pour les images haute résolution, la complexité quadratique est trop coûteuse. (3) Il atteint uniquement l’adaptabilité spatiale et ignore l’adaptabilité des dimensions du canal. Pour les tâches de vision, différents canaux représentent souvent différents objets. L'adaptation des canaux est également importante pour les tâches visuelles. Pour résoudre ces problèmes, nous proposons une nouvelle méthode d'attention visuelle, à savoir LKA. Il intègre les avantages des mécanismes d’attention personnelle, tels que l’adaptabilité et la dépendance à long terme. De plus, il exploite les avantages de la convolution, comme l'exploitation des informations de contexte local.

2.3 Vision MLP

  Avant l’émergence des CMM, les perceptrons multicouches (mlp) étaient un outil de vision par ordinateur populaire. Cependant, en raison de la grande quantité de calculs et de la faible efficacité, le MLP a longtemps été limité. Certaines études récentes ont réussi à découpler le MLP standard en MLP spatial et MLP de canal. Cette décomposition réduit considérablement le coût de calcul et la quantité de paramètres, libérant ainsi les performances étonnantes de MLP. Les lecteurs sont renvoyés aux études récentes pour un examen plus complet du MLP. Le MLP le plus lié à notre approche est le gMLP, qui non seulement décompose le MLP standard mais introduit également un mécanisme d'attention. Cependant, gMLP présente deux inconvénients. D'une part, gMLP est sensible à la taille d'entrée et ne peut traiter que des images de taille fixe. En revanche, gMLP ne considère que les informations globales de l'image et ignore la structure locale de l'image. Notre méthode permet d’exploiter pleinement ses avantages et d’éviter ses inconvénients.

3. Méthode

3.1 Grande attention centrale

  Le mécanisme d'attention peut être considéré comme un processus de sélection adaptatif qui sélectionne des caractéristiques distinctives en fonction des caractéristiques d'entrée et ignore automatiquement les réponses au bruit. L'étape clé du mécanisme d'attention consiste à générer des cartes d'attention qui représentent l'importance des différentes régions. Pour ce faire, nous devons comprendre la relation entre les différentes fonctionnalités.
insérer la description de l'image iciIl existe deux manières bien connues d’établir des relations entre différentes parties. La première consiste à utiliser le mécanisme d’auto-attention pour obtenir des dépendances distantes. L’application de l’auto-attention en vision par ordinateur présente trois inconvénients évidents, qui sont répertoriés dans la section 2.2. La seconde consiste à utiliser de grandes convolutions du noyau pour construire des corrélations et générer des cartes d'attention. Mais cette approche présente également des inconvénients évidents. Une grande convolution du noyau entraîne beaucoup de surcharge de calcul et de volume de paramètres.
  Pour surmonter les inconvénients énumérés ci-dessus et tirer parti des avantages de l'auto-attention et de la convolution à grand noyau, nous proposons de décomposer une opération de convolution à grand noyau pour capturer les relations à longue portée. Comme le montre la figure 2, la convolution à grand noyau peut être divisée en trois parties : la convolution spatiale locale (convolution en profondeur), la convolution spatiale à longue portée (convolution dilatée en profondeur) et la convolution de canal (convolution 1 × 1). Plus précisément, on peut mettre K × KK \times KK×La convolution de K se décompose en ⌈ K d ⌉ × ⌈ K d ⌉ \lceil \frac Kd \rceil \times \lceil \frac Kd \rceildK×dK⌉Le trou de convolution en profondeur est   d\d  , une( 2 ré − 1 ) × ( 2 ré − 1 ) (2d−1)×(2d−1)( 2 jours1 )×( 2 jours1 ) convolution en profondeur et une convolution 1 × 1. Grâce à la décomposition ci-dessus, nous pouvons capturer des relations à long terme avec un faible coût de calcul et de petits paramètres. Après avoir obtenu les relations à longue portée, nous pouvons estimer l’importance d’un point et générer une carte d’attention. Comme le montre la figure 3(a), le module LKA peut être écrit
insérer la description de l'image ici
comme suit :F ∈ RC × H × WF \in \Bbb R^{C \times H \times W}FR.C × H × W est la caractéristique d'entrée,A attention ∈ RC × H × W Attention \in \Bbb R^{C \times H \times W}Attention _ _ _ _ _ _ _R.C × H × W représente la carte d'attention. Les valeurs de la carte d'attention représentent l'importance de chaque fonctionnalité. ⨂ \bigotimes représente le produit scalaire. Contrairement aux méthodes d'attention courantes, LKA ne nécessite pas de fonctions de normalisation supplémentaires telles que sigmoïde et softmax, comme le montre le tableau 3. Nous soutenons également que le rôle clé des méthodes d’attention est d’ajuster de manière adaptative le résultat en fonction des caractéristiques d’entrée, plutôt que des cartes d’attention normalisées. Comme le montre le tableau 1, notre LKA proposée combine les avantages de la convolution et de l'auto-attention. Les informations contextuelles locales, le large champ récepteur, la complexité linéaire et le processus dynamique sont également pris en compte. De plus, LKA atteint non seulement l’adaptabilité de la dimension spatiale, mais également l’adaptabilité de la dimension du canal. Il convient de noter que dans les réseaux de neurones profonds, différents canaux représentent généralement différents objets et que l'adaptation des dimensions des canaux est également importante pour les tâches de vision.
insérer la description de l'image ici

3.2 Réseau d'attention visuelle (VAN)

  Notre VAN a une structure hiérarchique simple, qui produit une séquence de quatre étapes avec une résolution spatiale décroissante, à savoir H 4 × W 4 \frac H4 \times \frac W44H×4W, H 8 × W 8 \frac H8 \times \frac W88H×8W, H 16 × W 16 \frac H{16} \times \frac W{16}16H×16WH 32 × W 32 \frac H{32} \times \frac W{32}32H×32W. Parmi eux, HHHwaWW __W représente la largeur et la hauteur de l'image d'entrée. À mesure que la résolution diminue, le nombre de canaux de sortie augmente. Canal de sortieC i C_iCjeLes changements sont présentés dans le tableau 5.
  Comme le montre la figure 4, à chaque étape, nous sous-échantillonnons d'abord l'entrée, en utilisant la taille du pas pour contrôler le taux de sous-échantillonnage. Après le sous-échantillonnage, toutes les autres couches d'un étage conservent la même taille de sortie, c'est-à-dire la résolution spatiale et le nombre de canaux. Alors LLL ensembles de normalisation par lots, de convolution 1 × 1, d'activation GELU, d'attention importante du noyau et de réseau feed-forward sont empilés séquentiellement pour extraire les fonctionnalités. Nous avons conçu sept architectures, VAN-B0, VAN-B1, VAN-B2, VAN-B3, VAN-B4, VAN-B5 et VAN-B6, en fonction de la quantité de paramètres et du coût de calcul. Les détails de l'ensemble du réseau sont présentés dans le tableau 5.
**Analyse de complexité. **Nous donnons le montant du paramètre décomposé et le montant de l'opération en virgule flottante. Afin de simplifier la formule, nous ignorons le montant du calcul causé par l'écart dans le processus de calcul. Nous supposons que les caractéristiques d'entrée et de sortie ont la même tailleH × W × CH × W × CH×W×C. _ Quantité de paramètresP ( K , d ) P(K, d)P ( K ,d ) et les FLOPF ( K , d ) F(K, d)F ( K ,d ) peut être exprimé comme suit :
insérer la description de l'image ici
où,ddd représente l'indice de vide,KKK représente la taille du noyau. Selon la formule de calcul des FLOP et des paramètres, le taux d'économie budgétaire des FLOP et des paramètres est le même.
Détails de mise en œuvre
Nous utilisons par défautK = 21 K = 21K=21 . LorsqueK = 21 K = 21K=A 21 heures, la formule (3) est àd = 3 d = 3d=Prendre la valeur minimale à 3 , correspondant à5 × 5 5 × 55×Convolution de profondeur de 5 et 7 × 7 7 × 77×Le trou de 7 est une convolution de 3 profondeurs. Pour différents nombres de canaux, les paramètres spécifiques sont présentés dans le tableau 2. Les résultats montrent que notre méthode de décomposition présente des avantages évidents par rapport à la décomposition de grandes convolutions du noyau en termes de paramètres et de FLOP.
insérer la description de l'image ici
insérer la description de l'image ici
insérer la description de l'image ici

4. Expérimentez

  Dans cette section, des expériences quantitatives et qualitatives démontrent l'efficacité et la haute efficience de la méthode proposée. Nous menons des expériences quantitatives sur les ensembles de données de classification d'images ImageNet-1K et ImageNet-22K, la détection d'objets COCO, la segmentation d'instance, la segmentation panoramique et les références d'estimation de pose, ainsi que l'ensemble de données de segmentation sémantique ADE20K. De plus, nous visualisons les résultats expérimentaux et les cartes d'activation de classe (CAM) en utilisant GradCAM sur l'ensemble de validation ImageNet. L'expérience est basée sur Pytorch et Jittor.

4.1 Classement des images

4.1.1 Expérience ImageNet-1K

Configuration
  Nous effectuons une classification d'images sur l'ensemble de données ImageNet-1K. Il contient 1,28 million d'images de formation et 50 000 images de validation provenant de 1 000 catégories différentes. L'ensemble du plan de formation est fondamentalement conforme à [19]. Nous augmentons les données d'entraînement avec un recadrage aléatoire, un retournement horizontal aléatoire, un lissage des étiquettes, un mélange, un cutmix et un effacement aléatoire. Pendant l'entraînement, nous utilisons l'élan = 0,9 et la perte de poids = 5 × 1 0 − 2 5 \times10^{−2}5×1 0L'optimiseur AdamW de − 2 a été formé pendant 300 époques, où la taille du lot était de 1 024. Des stratégies de planification cosinusoïdale et d'échauffement sont utilisées pour ajuster le taux d'apprentissage (LR). Le taux d'apprentissage initial est fixé à5 × 1 0 − 4 5 \times 10^{−4}5×1 0−4._ _ _ Nous adoptons une variante de LayerScale dans la couche d'attention, avec une valeur initiale de
0,01xout = x + diag ( λ 1 , λ 2 , … λ d ) ( f ( x ) + x ) x_{out} = x + diag ( λ_1, λ_2,… λ_d)(f(x) + x)Xous _ _=X+d ia g ( λ1, je2,je) ( f ( x )+x ) remplacerxout = x + diag ( λ 1 , λ 2 , … , λ d ) f ( x ) x_{out} = x + diag(λ_1, λ_2,…,λ_d)f(x)Xous _ _=X+d ia g ( λ1, je2,, je) f ( x ) , pour obtenir de meilleures performances que le LayerScale d'origine. La moyenne mobile exponentielle (EMA) est également utilisée pour améliorer le processus de formation. Au cours de la phase d'évaluation, nous rapportons une précision de premier ordre sur l'ensemble de validation ImageNet sous un paramètre de recadrage unique.
Expériences d'ablation
  Nous avons réalisé des expériences d'ablation pour démontrer que chaque composant du LKA est essentiel. Afin d'obtenir rapidement des résultats expérimentaux, nous choisissons VAN-B0 comme modèle de base. Les résultats expérimentaux du tableau 3 montrent que toutes les parties du LKA sont essentielles pour améliorer les performances.

  • DW-Conv
    DW-Conv peut utiliser les informations de contexte local de l'image. Sans cela, les performances de classification chutent de 0,5 % (74,9 % contre 75,4 %), ce qui montre l'importance des informations structurelles locales lors du traitement de l'image.
  • DW-D-Conv
    DW-D-Conv signifie convolution dilatée profonde, qui joue un rôle dans la capture des dépendances à longue portée dans LKA. Sans cela, les performances de classification chutent de 1,3 % (74,1 % contre 75,4 %), confirmant notre opinion selon laquelle les dépendances à longue portée sont essentielles pour les tâches de vision.
  • L'introduction du mécanisme d'attention Attention Mechanism
    peut être considérée comme permettant au réseau d'obtenir des fonctionnalités adaptatives. Grâce à cela, VAN-B0 réalise une amélioration d'environ 1,1% (74,3% contre 75,4%). De plus, le taux de précision du remplacement de l'attention par l'addition n'est pas faible.
  • 1x1Conv
    Ici, 1 × 1 Conv capture la relation dans la dimension du canal. En combinaison avec le mécanisme d'attention, l'adaptabilité de la dimension du canal est introduite. L'amélioration de 0,8% (74,6% contre 75,4%) prouve la nécessité d'une adaptabilité dimensionnelle du canal.
  • Fonctions sigmoïdes
    La fonction sigmoïde est une fonction de normalisation couramment utilisée qui normalise la carte d'attention de 0 à 1. Cependant, lors de nos expériences, nous avons constaté que cela n'est pas nécessaire pour le module LKA. Sans sigmoïde, notre VAN-B0 atteint
    une amélioration de 0,2 % (75,4 % contre 75,2 %) avec moins de calculs.

  Grâce à l'analyse ci-dessus, nous constatons que notre LKA proposée peut exploiter les informations locales, capturer les dépendances à longue portée et est adaptative dans les dimensions de canal et spatiales. De plus, les résultats expérimentaux démontrent également que ces propriétés sont positives pour la tâche de reconnaissance. Bien que la convolution standard puisse utiliser pleinement les informations contextuelles locales, elle ignore les dépendances et l'adaptabilité à long terme. Pour l’auto-attention, bien qu’elle puisse capturer des dépendances à longue portée et ait une adaptabilité dans la dimension spatiale, elle ignore les informations locales et l’adaptabilité dans la dimension spatiale. En attendant, nous résumons également les discussions ci-dessus dans le tableau 1.
insérer la description de l'image ici
insérer la description de l'image ici
insérer la description de l'image ici
insérer la description de l'image ici
insérer la description de l'image ici
  De plus, nous menons également des études d'ablation dans le tableau 6 pour décomposer des noyaux de convolution de différentes tailles. Nous pouvons constater que la décomposition des convolutions 21 × 21 fonctionne mieux que la décomposition des convolutions 7 × 7, ce qui indique que les gros noyaux sont cruciaux pour les tâches de vision. Lors de la décomposition d’une convolution 28×28 plus grande, nous constatons que le gain n’est pas significatif par rapport à la décomposition d’une convolution 21×21. Par conséquent, nous choisissons de factoriser 21×21 convolutions par défaut.
Comparaison avec les méthodes existantes.
  Le tableau 7 donne la comparaison de VAN avec d'autres MLP, CNN et VIT. VAN surpasse les CNN courants (ResNet, ResNeXt, ConvNeXt, etc.), ViT (DeiT, PVT, Swin-Transformer, etc.) et les MLP (MLP-Mixer, ResMLP, gMLP, etc.) avec une quantité similaire de paramètres et de calculs. coût. Nous montrons visuellement la comparaison de notre méthode avec des méthodes classiques de niveau similaire sur différentes tâches sur la figure 6, où l'amélioration de notre méthode est clairement visible. Dans la discussion suivante, nous sélectionnerons un réseau représentatif dans chaque catégorie.
  ConvNeXt est un CNN spécial qui absorbe certains avantages des ViT, tels que de grands champs récepteurs (convolution 7×7) et des stratégies de formation avancées (300 époques, amélioration des données, etc.). Comparé à ConvNeXt, VAN-b2 s'améliore de 0,7 % par rapport à ConvNeXt-T (82,8 % contre 82,1 %) en raison du champ de réception et de l'adaptabilité plus larges de VAN. Swin-Transformer est une variante ViT bien connue qui utilise une attention locale et des fenêtres coulissantes. Étant donné que VAN est favorable aux informations structurelles bidimensionnelles, possède un champ de réception plus grand et est adaptatif dans la dimension du canal, VAN-b2 est 1,5 % plus élevé que Swin-t (82,8 % contre 81,3 %). Pour MLP, nous choisissons gMPL. VAN-B2 est 3,2 % plus élevé que gMLPS [72] (82,8 % vs 79,6 %), ce qui reflète l'importance de la localité.
Débit
  Nous avons testé le débit de Swin-transformer et VAN dans l'environnement matériel RTX 3090. Les résultats sont présentés dans le tableau 4. De plus, nous traçons également le graphique précision-débit, comme le montre la figure 5, VAN permet d'obtenir un meilleur compromis précision-débit que le transformateur Swin.
insérer la description de l'image ici

4.1.2 Visualisation

  La cartographie d'activation de classe (CAM) est un outil populaire pour visualiser les régions d'intérêt (cartes d'attention). Nous utilisons Grad-CAM pour visualiser l'attention sur l'ensemble de validation ImageNet produit par le modèle VAN-B2. Comme le montrent les résultats de la figure 7, VAN-B2 peut clairement se concentrer sur l'objet cible. Par conséquent, la visualisation démontre intuitivement l’efficacité de notre approche. De plus, nous avons comparé différents CAM produits par Swin-T, ConvNeXtT et VAN-B2. Nous pouvons constater que la zone d'activation de VANB2 est plus précise. Surtout lorsque les objets dominent l'image (les 3 dernières lignes), notre méthode présente un net avantage comme le montre la figure 7, qui montre sa capacité à obtenir des corrélations à long terme.
insérer la description de l'image ici

4.1.3 Pré-formation basée sur ImageNet-22K

Setting
  ImageNet-22K est un ensemble de données de classification d'images à grande échelle, contenant environ 14 millions d'images et 21 841 catégories. Suite à Swin-Transformer et ConvNeXt, nous avons pré-entraîné VAN pendant 90 époques sans utiliser EMA. la taille du lot est définie sur 8196. Les autres détails de la formation sont les mêmes que ceux d'ImageNet-1k. Après une pré-formation sur ImageNet-22K, nous avons affiné le modèle sur ImageNet-1K pendant 30 époques. Nous pré-entraînons notre modèle avec une entrée de 224 × 224, puis affinons notre modèle avec une entrée de 224 × 224 et 384 × 384 respectivement.
Résultats
  Nous comparons les CNN de pointe actuels (par exemple, ConvNeXt, EFFNetV2) et Vit (par exemple, Swin-Transformer, ViT et CoAtNet). Comme le montre le tableau 8, VAN atteint une précision Top-1 de 87,8 % sous les paramètres 200M, surpassant ViT, Swin-Transformer, EFFNetV2 et ConvNeXt au même niveau à différentes résolutions, prouvant sa forte adaptabilité à la pré-entraînement à grande échelle. .
insérer la description de l'image ici
insérer la description de l'image ici

4.2 Détection de cible

Paramètres
  Nous avons mené des expériences de détection d'objets et de segmentation d'instances sur le benchmark COCO 2017, qui contient 118 000 ensembles de formation et 5 000 ensembles de validation.
MMDetection est utilisé comme base de code pour implémenter des modèles de détection. Pour une comparaison équitable, nous adoptons la même stratégie de formation/validation que Swin Transformer et PoolFormer. Différents modèles de détection (tels que Mask R-CNN, RetinaNet, Cascade Mask R-CNN, Sparse R-CNN, etc.) pour prouver l'efficacité de notre méthode. Tous les modèles de backbone sont pré-entraînés sur ImageNet.
Les résultats
  peuvent être trouvés dans les tableaux 9 et 10. Sous les paramètres de RetinaNet 1x et Mask R-CNN 1x, l'effet de VAN est nettement meilleur que la méthode basée sur CNN ResNet et la méthode basée sur le transformateur PVT. De plus, nous comparons également deux méthodes de pointe, Swin-Transformer et ConvNeXt, dans le tableau 11. Les résultats montrent que VAN peut atteindre des performances de pointe sous différentes méthodes de détection telles que Mask RCNN et Cascade Mask R-CNN.

4.3 Segmentation sémantique

Paramètre
  Nous menons des expériences sur ADE20K, qui contient 150 catégories sémantiques pour la segmentation sémantique. Il divise les données dans des proportions de 20 000, 2 000 et 3 000 respectivement pour la formation, la validation et les tests. MMSEG est utilisé comme cadre de base, et deux têtes de segmentation bien connues, Semantic FPN et UpperNet, sont utilisées pour évaluer notre backbone VAN. Pour une comparaison équitable, nous avons adopté deux schémas de formation/validation [98] et [15], et les résultats quantitatifs sur l'ensemble de validation sont présentés respectivement dans les parties supérieure et inférieure du tableau 12. Tous les modèles de backbone sont pré-entraînés sur ImageNet-1K ou ImageNet-22K.
Les résultats
  peuvent être vus dans la partie supérieure du tableau 12 selon lesquels dans différents réseaux fédérateurs utilisant FPN, la méthode basée sur le fourgon est meilleure que la méthode basée sur CNN (ResNet, ResNeXt) ou basée sur un transformateur (PVT, PoolFormer, PVTv2). . Par exemple, nous avons surperformé quatre variantes PVTv2 en augmentant de 1,3 (B0), 0,4 (B1), 1,5 (B2), 0,8 (B3) mIoU avec des paramètres et des FLOP similaires. Dans la moitié inférieure du tableau 12, les 4 variantes VAN affichent également des performances supérieures avec un nombre similaire de paramètres et de FLOP par rapport aux méthodes précédentes basées sur CNN et aux méthodes basées sur swin-transformer. Par exemple, basé sur UpperNet, VAN-B2 est respectivement 5,2 et 4,0 mIoU supérieur à ResNet-101 et SwinT. Pour le modèle pré-entraîné ImageNet-22K, VAN surpasse également Swin-Transformer et ConvNeXt avec moins de temps de calcul, comme le montre le tableau 13.

4.4 Segmentation panoramique

Demandez-
  nous d'effectuer une segmentation panoramique sur l'ensemble de données de segmentation panoramique COCO et sélectionnez Mask2Former comme tête de segmentation. Pour une comparaison équitable, nous adoptons les paramètres par défaut dans MMDetection et adoptons le même schéma de formation/validation de Mask2Former. Tous les modèles de backbone sont pré-entraînés sur ImageNet-1K ou ImageNet-22K.
Les résultats
  sont présentés dans le tableau 14. Nous observons que VAN surpasse Swin-Transformer sur les grands et petits modèles. Ici, VAN-B2 surpasse Swin-T de 1,7 PQ. En outre, il convient de noter que le VAN-B6 atteint 58,2 PQ, offrant ainsi des performances de pointe pour les tâches de segmentation panoramique.
insérer la description de l'image ici
insérer la description de l'image ici

4.5 Estimation des poses

Configuration
  Nous menons des expériences d'estimation de pose sur l'ensemble de données d'estimation de pose humaine COCO, qui contient 200 000 images avec 17 points clés. Le modèle est formé sur l'ensemble de données COCO train 2017 et testé sur l'ensemble de données COCO val 2017. Nous adoptons SimpleBaseline comme partie décodeur, qui est la même que Swin-Transformer et PVT. Toutes les expériences étaient basées sur MMPose.
Résultats
  Les résultats expérimentaux sont présentés dans le tableau 15. Pour une entrée de 256 × 192, VAN-B2 dépasse Swin-T et PVT-S de 2,5AP (74,9 contre 72,4) et 3,5AP (74,9 contre 71,4), tandis que les quantités de calcul et de paramètres sont similaires. De plus, VAN-B2 surpasse Swin-B 2AP (74,9 contre 72,9) pour une taille d'entrée de 256 × 192 et 1,8AP pour une entrée de 384 × 288 (76,7 contre 74,9), en plus des modèles basés sur un transformateur, VAN-B2 Surclasse également le modèle populaire HRNet-W32 basé sur CNN.

4.6 Classification à grains fins

  Nous effectuons une classification à grain fin à l'aide de l'ensemble de données CUB-200, qui est une référence de classification à grain fin couramment utilisée et contient 11 788 images appartenant à 200 sous-catégories d'oiseaux. Nous n’avons pas conçu d’algorithme spécifique pour cette tâche, mais avons simplement remplacé la dernière couche linéaire par 200 catégories. Nous implémentons notre modèle basé sur la mmclassification. Les résultats du tableau 16 montrent que VAN-B4 a atteint un algorithme de précision Top-1 de 91,3 % sans aucune conception spéciale, surpassant DeiT et ViT-B.

4.7 Détection de la signification

  Nous effectuons une détection de saillance basée sur EDN. Nous remplaçons le squelette par VAN et menons des expériences sur des références courantes de détection de saillance, notamment DUTS, DUT-O et PASCAL-S. Les résultats du tableau 17 montrent que VAN surpasse significativement les autres principaux ResNet et PVT sur tous les ensembles de données.

5 Discussion

  Récemment, les modèles basés sur Transformer ont rapidement conquis divers classements visuels. Nous savons que l’attention personnelle n’est qu’un mécanisme d’attention particulière. Cependant, les gens se tournent progressivement vers l’attention personnelle et ignorent les méthodes d’attention sous-jacentes. Cet article propose un nouveau module d'attention LKA et un réseau VAN basé sur CNN. Surpasse les méthodes de pointe basées sur Transformer pour les tâches de vision. Nous espérons que cet article incitera à repenser la question de savoir si l’attention personnelle est irremplaçable et quel type d’attention est le plus adapté aux tâches visuelles.

6 métiers d'avenir

À l’avenir, nous continuerons à améliorer VAN dans les directions suivantes :

  • Amélioration continue de la structure elle-même Dans cet article, nous montrons uniquement une structure intuitive. Adopter différentes tailles de noyau, introduire des structures multi-échelles, utiliser des structures multi-branches, etc. présentent tous un grand potentiel d'amélioration.
  • L’apprentissage autosupervisé à grande échelle et l’apprentissage par transfert VAN combinent naturellement les avantages des CNN et des ViT. D'une part, VAN peut utiliser les informations structurelles bidimensionnelles de l'image, et d'autre part, VAN peut ajuster dynamiquement la sortie en fonction de l'image d'entrée, ce qui convient à l'apprentissage auto-supervisé et à l' apprentissage par transfert . En combinant les deux points ci-dessus, nous pensons que VAN peut obtenir de meilleures performances dans les domaines de l’apprentissage auto-supervisé par image et de l’apprentissage par transfert.
  • Plus de domaines d'application En raison de ressources limitées, nous excellons uniquement dans les tâches de vision. La question de savoir si les VAN peuvent également fonctionner correctement dans d'autres domaines tels que le TCN de la PNL mérite toujours d'être explorée. Nous sommes impatients de voir les VAN devenir un modèle courant.

7 résumé

  Cet article combine les avantages de la convolution et de l’auto-attention pour proposer un nouvel algorithme d’attention visuelle LKA. Sur la base de LKA, nous avons construit un VAN de base visuelle qui a atteint des performances de pointe dans des tâches visuelles telles que la classification d'images, la détection de cibles et la segmentation sémantique. À l’avenir, nous continuerons à améliorer ce cadre dans les directions mentionnées dans la section 6.

Je suppose que tu aimes

Origine blog.csdn.net/qq_41776136/article/details/132793738
conseillé
Classement