Distiller des détecteurs d'objets avec des notes papier de régularisation adaptative de tâche

Adresse papier : https://arxiv.org/abs/2006.13108
Adresse github : Aucune
. Cet article propose une méthode de distillation de détection de cible pour la régularisation adaptative au niveau des tâches, qui distille le modèle à partir de trois modules : l'épine dorsale pour l'extraction de caractéristiques, un en-tête pour classification et un en-tête pour la régression.

Motivation

La plupart des algorithmes actuels de distillation des connaissances sont appliqués à des tâches de classification, et il est difficile de les appliquer directement aux modèles de détection. Il y a deux raisons principales : 1. Un grand nombre d'échantillons de fond dans la tâche de détection rend les échantillons positifs et négatifs déséquilibrés, ce qui rend la tâche de classification du modèle plus difficile ; 2. Le réseau de détection de cible est plus complexe, en particulier pour le réseau en deux étapes, il existe de nombreux modules sont combinés. Afin de résoudre les problèmes ci-dessus, l'auteur propose une méthode de distillation plug-and-play, qui est portable.

Méthodes

L'auteur distille à partir de trois niveaux. Le cadre général de l'algorithme est présenté dans la figure ci-dessous :
insérez la description de l'image ici
Distillation au niveau de la colonne vertébrale :
l'auteur utilise le masque gaussien pour extraire les caractéristiques du premier plan dans la carte des caractéristiques, c'est-à-dire la région où se trouve la cible, pour la distillation. . Le but de l'utilisation du masque gaussien est de mettre en évidence la zone centrale de la cible et de réduire le bruit introduit par le fond de la zone où se trouve la cible.
Plus précisément, une fois le cadre cible B donné, la définition du masque gaussien est la suivante :
insérez la description de l'image icioù w, h sont la longueur et la largeur du cadre, (x0, y0) est le point central, σ x \sigma_{x}px, σ y \sigma_{y}pyest le facteur d'atténuation dans les deux directions, qui est fixé à la même valeur pour des raisons de simplicité dans l'article. L'effet est illustré dans la figure ci-dessous.
insérez la description de l'image ici
Lorsque plusieurs cases sont superposées sur le même pixel, la plus grande valeur est utilisée comme valeur de masque.
L'expression de sa perte par distillation est la suivante :
insérez la description de l'image ici
où Na est la somme des éléments du masque. F sont les cartes de caractéristiques de l'enseignant et de l'élève respectivement.

Distillation au niveau de la classification :
En raison des cadres différents prédits par le RPN de l'enseignant et de l'élève dans le réseau de détection à deux étages, et il y a un grand nombre d'échantillons négatifs dans la prédiction de la classification, du bruit sera introduit lors de la distillation , l'auteur propose donc de partager l'élève et l'enseignant au niveau du classement Le réseau RPN permet ainsi la distillation. D'autre part, les auteurs n'utilisent que la connaissance de la classification des échantillons positifs pour guider les étudiants dans leur apprentissage. L'auteur estime que l'utilisation du partage RPN peut être bénéfique à la distillation d'une part, et d'autre part, elle peut également améliorer la généralisation des connaissances, car le réseau enseignant n'a aucune connaissance préalable de la boîte de prédiction fournie par l'élève. , et ses résultats de classification ont une certaine capacité de généralisation. Sa perte est illustrée par la formule suivante :
insérez la description de l'image ici
Distillation au niveau de la régression :
Étant donné que l'illimité de la prédiction de la régression peut rendre les connaissances de prédiction de l'enseignant erronées ou même contraires à la vérité fondamentale, l'auteur propose une distillation adaptative basée sur les tâches. Lorsque la prédiction du réseau d'enseignants est correcte, elle est utilisée comme connaissance pour guider l'élève dans son apprentissage, sinon elle n'est pas distillée. L'exactitude de la prédiction de l'enseignant est jugée en calculant si la prédiction d'IOU est appelée RPN. La perte de sa distillation est indiquée dans la formule suivante :
insérez la description de l'image ici
la perte de régression complète est indiquée dans la formule suivante :
insérez la description de l'image ici
la perte finale est indiquée dans la formule suivante, qui est l'addition de trois termes.
insérez la description de l'image ici
Parallèlement, afin d'assurer la convergence et la stabilité de l'entraînement, l'auteur propose une décroissance par distillation adaptative. C'est-à-dire que pendant le processus d'entraînement, au fur et à mesure que l'entraînement progresse, le poids de la partie distillation diminue progressivement jusqu'à 0, ce qui fait que le modèle Xun Chen se concentre progressivement sur la tâche de détection elle-même.

Expériences

数据集:VOC0712, COCO2017
Baseline:R-CNN plus rapide,RetinaNet
GPU:Tesla V100 *8
batchsize:16,2 par GPU
σ x , σ y \sigma_{x}, \sigma_{y}px,py:2
résolution:(1333, 800) pour COCO, (1000,600) pour COV

Résultats

insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici

Je suppose que tu aimes

Origine blog.csdn.net/qq_43812519/article/details/107462864
conseillé
Classement