modèle de réseau de neurones binaire à l'examen Quantifier 2020

BNN examen 2020

le stockage et le déploiement d'économie de coût de calcul binaire du réseau de neurones sur le bord d'un dispositif informatique. Cependant, la binarisation entraîner une perte grave de l' information, il est difficile d'optimiser la discontinuité.
Directement dans la solution originale binarisée, et l'utilisation de l'erreur de quantification est réduite au minimum, l' amélioration du réseau et de réduire la fonction de perte des techniques d'erreur de gradient telle solution optimisée.
Nous allons également explorer d' autres aspects pratiques des réseaux de neurones binaires, tels que les techniques de conception et de formation convivial matériel.
Y compris la classification d'image, détection d'objets et de segmentation sémantique différentes tâches discutées et évaluées. Vous cherchez à la recherche de défis futurs susceptibles de faire face.

fond

Une méthode de compression du réseau profond peut être divisé en cinq catégories: la taille des paramètres, paramètres de quantification, une décomposition faible rang, convolution distillation migration / compression filtre et connaissances.

Il est une donnée de quantification de 1 bit binaire qui ne comporte que deux valeurs possibles, à savoir 1 (0) ou +1. Après avoir utilisé la compression binaire, poids du réseau et peut être activé par un express, sans prendre trop de mémoire.
En outre, par binarisation le réseau binaire peut utiliser léger et Bitcount bit opérations XNOR au lieu de virgule flottante multiplication-addition arithmétique lourde.
En utilisant une convolution d'accélération XNOR-Net sur la CPU peut atteindre 58 fois, le taux de compression jusqu'à 32 fois.
Insérer ici l'image Description

classification

Insérer ici l'image Description

réseaux de neurones binaires simples

BinaryConnect binarisée Neural Network
Bitwise Neural Network

3.2 optimisation basée sur des réseaux de neurones binaires

La pratique habituelle est de réduire le poids de l'erreur de quantification et d' activation. Ceci est une solution simple à
quantifier mécanisme similaire à la norme, qui est,paramètre Quantification doit être aussi proche des paramètres complets de précisionEt le modèle de réseau de neurones binaire est souhaitable performances proche de la pleine précision du modèle.

3.2.1 minimiser l'erreur de quantification

Insérer ici l'image Description
Insérer ici l'image Description

3.2.2 améliorer la fonction de perte de réseau

programmes binaires généraux se concentrent uniquement sur une approximation précise float partielle, tout en ignorant l'impact de la perte de paramètres binaires globale. Préoccupé une seule couche est difficile d'assurer la sortie finale après une série de couches de précision. Par conséquent, les besoins du réseau mondial de formation pour être en mesure d'examiner les objectifs de la mission binaires et spécifiques.

Augmenter les éléments de perte perçus

LAB) (INQ)

distillation connaissances

(DQ) (DBNN) CI-BCNN
Insérer ici l'image Description
Insérer ici l'image Description

3.2.3 réduction d'erreur gradient

inadéquation manifeste entre la fonction de gradient et le signe du STE gradient généré. De plus, il y a un problème: [- 1, + 1] paramètre hors de la plage ne sera pas mis à jour.
Insérer ici l'image Description

Amélioration de la quantification solveur gradient

Bi-Real ApproxSign offre une fonction personnalisée pour remplacer la fonction de signe pour calculer la propagation de retour de gradient de

Résolution des améliorations avant vectorisation

Gong et al quantification souple (DSQ) Un procédé différentiel, la fonction de quantification quantifiée doux au lieu des fonctions traditionnelles:
Insérer ici l'image Description

3.3 architecture informatique de réseau de neurones binaires efficace

Insérer ici l'image Description

3.5 conseils de formation du réseau de neurones binaires

Convertisseur de la configuration du réseau, l'optimisation et la sélection ultra-paramètres, approximation gradient et aspects asymptotiques résumé méthode de quantification commun de formation de réseau de neurones binaire efficace largement utilisé dans la littérature.

3.5.1 restructuration du réseau

Modèle binarisation et activation du droit poids à {1, + 1}. Ceci est en fait équivalent à la régularisation des données, de sorte que la distribution des données binarisée change, la structure du réseau est d'ajuster le système de distribution de données des changements raisonnables efficaces.

Les couches réapprovisionnement performances du réseau peuvent être améliorées réseaux de neurones binaires

  • Utilisez couche Pooled immédiatement après la couche peut être évitée par convolution de la plus grande piscine après binarisation conduisant à une perte d'informations. Les expériences montrent que la position réarrangement a considérablement amélioré la précision.

  • TSQ et l'opération de quantification HWGQ inséré avant tous les lots normalisées pour corriger la couche de données. Après cette transformation, la Obey distribution stable d'entrée quantifiée (parfois proche de la distribution gaussienne), donc les restes moyenne et la variance dans des limites raisonnables, et le processus de formation devient plus lisse.

  • Bi-Real réseau après être connecté à chaque fonction d'entrée figure convoluée

  • L'élargissement du réseau de faible précision (WRPN), ce qui augmente le nombre de filtre de réseau dans chaque couche, ce qui modifie la répartition des données

Optimizer et préférences 3.5.2 ultra

Adam peut faire usage du processus de formation mieux, plus rapide, et un coefficient de lissage de la dérivée seconde est particulièrement critique.

Si les informations d'historique est pas considérée comme une optimisation des taux d' apprentissage fixe, comme algorithme de descente de gradient stochastique (SGD), la nécessité d'utiliser un plus grand lot de données pour améliorer les performances.
En même temps, le facteur momentum de normalisation des lots est également critique. En comparant la précision des résultats sous différents coefficients de momentum, il peut se révéler nécessaire aux lots de paramètres normalisés définis de manière appropriée pour adapter la gigue de binarisation causée par l'opération.

3.5.3 quantification asymptotique

Depuis l'opération de quantification ont un impact négatif sur la formation, de nombreuses méthodes asymptotiques en utilisant des stratégies quantitatives, de plus en plus pour quantifier la mesure de minimiser la perte de performances par les paramètres du plomb binaire.
Par exemple, les paramètres sont regroupés INQ, et d'augmenter progressivement le nombre de la participation du groupe de quantification pour obtenir un groupe à base progressive de quantification.
Vers réseau de neurones de faible largeur de bit effective convolutif est proposé de réduire la précision de précision de quantification, pour compenser un gradient du processus de formation des paramètres d'erreur de quantification.

3.5.4 approximation gradient

Parce que grâce à l'utilisation d'un estimateur, le plus souvent en présence de la rétro-propagation de gradient de l'erreur. Trouvé près fonction d'approximation de la fonction de binarisation est une solution simple et pratique.

résultat Analyse

classification

Insérer ici l'image Description

Insérer ici l'image Description

CIBCNN RCCS BCGD

analyse

  • L' activation de l'impact de la grande binaire
    motivation principale étude de PACT de RAD et ainsi de suite. Après avoir ajouté une distribution raisonnable de régularisation d'activation, réduira les effets néfastes causés par l' activation de la paire binaire, suivie par la précision de l' accroissement naturel.
  • Robustesse sa structure deux réseaux de neurones sont très pertinents
    structure de connexion proposée Bi-Real et des blocs en plus large WRPN en ce que l'information est essentiellement rendue possible grâce à l'ensemble du réseau. Bien que des modifications structurelles peuvent augmenter la quantité de calcul, mais bénéficier de l'opération XNOR-Bitcount, ils peuvent encore être accéléré de manière significative.
  • Plus spécifiquement conçu pour les caractéristiques particulières de BNN
    telles que XNOR-Net ++, RCCS, Self Networks -Binarizing, BENN ainsi de suite.
  • Procédure générale
    par exemple un facteur d'échelle, approximation de lissage inverse, les connexions structurelles supplémentaires. Étant donné que ces méthodes sont simples et à faible forme de réalisation de couplage,
    par la conception ou bien l' apprentissage quantificateur, des calculs complexes ou même pipeline de formation en plusieurs étapes, qui parfois du matériel hostile et difficile à reproduire.

détecter

Insérer ici l'image Description

analyse

Dans les tâches de classification, le réseau est plus préoccupé par la fonction globale, tout en ignorant les caractéristiques locales causées par la perte du binaire. Cependant, les caractéristiques locales plus importantes entre autres tâches. Par conséquent, lors de la conception d'un réseau de neurones binaires pour d'autres tâches, nous devons accorder plus d'attention aux caractéristiques locales de carte caractéristique.

https://mp.weixin.qq.com/s/QGva6fow9tad_daZ_G2p0Q
Quantifier examen 2018
https://www.jiqizhixin.com/articles/2018-06-01-11
https://chenrudan.github.io/blog/2018 /10/02/networkquantization.html

Publié 452 articles originaux · Praise gagné 271 · vues 730 000 +

Je suppose que tu aimes

Origine blog.csdn.net/qq_35608277/article/details/104905801
conseillé
Classement