Réseaux profonds avec la profondeur Stochastique

article de profondeur au hasard est publié dans ECCV2016, cet article plus tôt que DenseNet., DenseNet mais aussi parce que le réseau a été inspiré par la profondeur de hasard, il suffit de demander. Réseau profond avec la profondeur Stochastique, dans le processus de formation, pour éliminer les nombreuses couches de hasard et n'a pas d'incidence sur la convergence de l'algorithme, il explique ResNet a une redondance. Et enlever les couches intermédiaires ont aucun effet sur le résultat final, décrit fonctionnalité ResNet information sur l'apprentissage de chaque couche sont très petites, a bien ResNet décrit la redondance. réseau DenseNet ainsi proposé, le réseau DenseNet et la profondeur stochastique sont Huanggao Bo Stephen est sorti.

réseau profond maintenant a montré une très forte capacité, mais il y a beaucoup de problèmes. Même sur les ordinateurs modernes, le gradient se dissipent, avant la diffusion de l'information continuent à se dégrader, le temps de formation sera des questions très lents et d'autres.

ResNet solide performance dans de nombreuses applications a été confirmée, cependant, ResNet ont encore un défaut ne peut pas être ignoré - la plus profonde du réseau nécessite généralement plusieurs semaines de formation - donc, l'appliquer dans la scène réelle du coût très élevé. Pour résoudre ce problème, les auteurs ont introduit une approche « contre-intuitif », que l'on peut éliminer arbitrairement certaines couches dans le processus de formation et d'utiliser le réseau complet pendant le test.

Le document principal est de présenter une profondeur aléatoire, en utilisant la profondeur de faible profondeur (passe au hasard quelques-unes des couches sur la base de ResNet) au cours de la formation, à l'aide d'une grande profondeur dans le test, moins de temps de formation et d'améliorer la performance de la formation, dans les quatre derniers l'ensemble de données de la ResNet de performance initial (ICRA-10, ICRA-100, SVHN, IMAGEnet). Son processus de formation abandon aléatoire méthode ResNet pour améliorer la couche intermédiaire, peut être trouvée pour améliorer de manière significative la capacité de généralisation de ResNet. La profondeur du réseau peut être considéré comme une modification de ResNet aléatoire.

Les auteurs ont utilisé le bloc résiduel que leurs composants réseau, par conséquent, dans la formation, si un bloc résiduel particulier est activé, il coulera en même temps par le raccourci du changement d'identité de table d'entrée (raccourci d'identité) et le poids couche, sinon l'entrée circule seulement à travers raccourci de transformation d'identité. Au cours de la formation, chaque couche a une « probabilité de survie », et sera arbitrairement mis au rebut. Lors de l'essai, tout le bloc reste actif, et le bloc sera ajusté en fonction de leur probabilité de survie dans la formation

L' [Officiel]état d'activation de chaque bloc généré par une variable aléatoire Bernoulli [Officiel], éventuellement RESNET le bloc de goulot d' étranglement, à partir de

[Officiel]

redéfinie

[Officiel]

Lorsque [Officiel], qui est, lorsque le bloc est pas activé,

[Officiel]

(Note: l'original est [Officiel]également à expliquer, mais je pense que plus de plus de clarté)

De plus, [Officiel]de [Officiel]descendre au linéaire simple [Officiel], il est défini comme

[Officiel]

prédiction:

ResNet le bloc est défini comme étant

[Officiel]

C'est, la probabilité de chaque bloc dans un droit résiduel pour bloquer ce poids.

Cette introduction de variables aléatoires sont conçus pour surmonter efficacement le surapprentissage le modèle a une meilleure capacité de généralisation. L'explication de l'auteur ne fait pas partie du bloc est activé en fait parvenir à une intégration du modèle récessif (ensemble de modèle implicite), en raison de la profondeur du train de modèle lorsque aléatoire, modèle de prédiction pour déterminer la profondeur, en effet, lors du contrôle des différentes profondeurs le modèle incorpore le haut. Pour déterminer la profondeur de l'information avec les couches de réseau sont extraites filtré, lorsque l'information atteint le sommet du réseau n'est pas très instructif, et le visage de ces informations sur le réseau de niveau élevé est difficile d'obtenir une formation efficace. Une partie du bloc n'est pas activé, de sorte que le bloc de haut niveau peut recevoir plus d'informations à partir du bas, peuvent être mieux formés, de sorte que le modèle a une meilleure capacité à exprimer. Dans la prédiction, et pour déterminer la profondeur de chaque bloc de pondération et, en fait, une fusion de modèle.

Une autre explication, cette conception est l'introduction de variables aléatoires Dropout appliquée à l'ensemble du réseau.

Je suppose que tu aimes

Origine www.cnblogs.com/ziwh666/p/12482583.html
conseillé
Classement