ajustement de paramètre yolov3

[Net] ★ ligne [xxx] représente le début de la couche de réseau, le contenu des paramètres de la couche suivante, [NET] pour une couche particulière, l'ensemble de la configuration du réseau

Test de comportement # au début du numéro de ligne de commentaire, lors de l'analyse des fichiers cfg ignorera la ligne

lot = 1

subdivisions = 1

Formation

lot = 64 ★ lot et l' apprentissage de la machine dans le lot ici un peu différent, seulement après combien d'échantillons cumulent un réseau BP
Subdivisions = 16 ★ Ce paramètre indique un lot d'images avant la fin des sous sous sous-réseaux de diffusion
★★ frapper tableau: dans la Darknet, et le sous bATCH sont utilisés en combinaison, par exemple, ici lot = 64, sub = plus de 16 ans a représenté la formation
processus dans les images de chargement jetable dans la mémoire 64, puis 16 minutes avant la fin de la propagation, signifie que chaque quatre, le cycle en avant propagé
perte cumulée moyenne 64 avant que les images doivent être remplis après propagation, puis après un paramètre de transfert d' une mise à jour de temps
★★★ expérience de planification: sub 16 est généralement prévue, non est trop grand ou trop petit, et un multiple de 8, en fait rien obligatoire, confortable ressemblant à des
valeurs de traitement par lots peut être ajustée dynamiquement en fonction de l' occupation de la mémoire, la taille du sous-temps et peut soustraction, habituellement le plus grand lot bien, la nécessité de
noter que, au moment du lot d'essai et sous sont mis à 1, pour éviter les erreurs mystérieuses!

largeur = 608 ★ bande large largeur entrée
haute hauteur de la hauteur = 608 ★ entrée réseau
canaux = le nombre de canaux des canaux d'entrée du réseau 3 ★
★★★ largeur et la hauteur doit être un multiple de 32, ou ne peut pas charger le réseau
★ Conseil: largeur aussi il peut être réglé pas la même hauteur, normalement, plus les valeurs de largeur et de hauteur de la petite reconnaissance d'objets
le mieux, mais limité par la mémoire, le lecteur peut essayer différentes combinaisons de leurs propres

impulsion = 0,9 ★ dynamique DeepLearning1 la méthode d'optimisation des paramètres de quantité de mouvement, cette valeur affecte la descente de gradient à la vitesse optimale digne de
décroissance = 0,0005 ★ poids terme de régularisation de désintégration, pour éviter une sur-raccord

angle = 0 ★ paramètre amélioration de données, plusieurs échantillons de formation est généré par l'angle de rotation de
saturation = 1,5 ★ données de paramètres de mise en valeur afin de générer plus d' échantillons de formation en ajustant la saturation d'
exposition = 1,5 ★ données de paramètres de mise en valeur, est généré en ajustant une quantité d'exposition est plus échantillon de formation multi
teinte = 0,1 ★ paramètre amélioration de données, plusieurs échantillons de formation est généré par le réglage de la teinte

learning_rate = 0,001 ★ taux d' apprentissage détermine la vitesse de la mise à jour de poids, l'Assemblée générale a aussi rendre les résultats plus que la valeur optimale, trop faible pour que le taux de déclin est trop lent.
Si vous comptez sur l' intervention humaine pour ajuster les paramètres, nécessité de continuer à modifier le taux d'apprentissage. Élevé au début de la formation du taux d'apprentissage peut être mis un peu,
mais après un certain nombre de tours, ce qui réduit pendant la formation, le taux d'apprentissage est généralement définie en fonction des changements dynamiques du nombre de roues de formation.
Le début de formation: le taux d' apprentissage est appropriée 0,01 à 0,001. Après un certain nombre de tours: ralentissement.
Vers la fin de la formation: la décomposition du taux d' apprentissage devrait être plus de 100 fois.
Régler la référence de taux d'apprentissage https://blog.csdn.net/qq_33485434/article/details/80452941
★★★ ajustements de taux d' apprentissage ne doit pas être trop mort, le changement de processus de formation proprement dite et la perte de dynamique ajustée en fonction d'autres indicateurs, ctrl + manuel noeud c
après que les faisceaux de formation, de modifier le taux d' apprentissage, puis charger les modèles simplement enregistrés continuent d'effectuer le réglage des paramètres manuel de formation, l'ajustement est basé sur la formation
dans le journal, si la perte est des fluctuations trop importantes, ce qui indique que le taux d'apprentissage est trop important, une réduction appropriée petit, devient si la perte est presque constante, 1 / 5,1 / 10 peut,
peut ou réseau a convergé en un minimum local, être approprié à ce moment pour augmenter le taux d'apprentissage, attention à tous les taux d'apprentissage doit être une formation ajustée depuis longtemps
que l'on observe bien, l'assistant a été délibérément, lentement méditée
★★ petite note: le nombre de taux d'apprentissage réel et lié GPU, tels que votre taux d'apprentissage est fixé à 0,001, si vous avez quatre GPU, et que
taux réel d'apprentissage de 0,001 /. 4
burn_in 1000 ★ = nombre d'itérations est inférieur à burn_in, mettre à jour un mode de taux d' apprentissage, supérieure à burn_in, sont utilisés uniquement si le mode de mise à jour de la politique
max_batches = 500200 ★ temps de formation pour arrêter l'apprentissage après avoir atteint max_batches, le temps de terminer un lot

politique = étapes ★ stratégies d'ajustement des taux d' apprentissage: constant, étapes, exp, poly , étape, sig, RANDOM, constant , etc.
Référence https://nanfei.ink/2018/01/23/YOLOv2%E8%B0%83% 8F% 82 %% E5 E6 E7 %%% BB 80% 93% BB / # Plus
étapes = 400000,450000
échelles = .1, .1 ★ les étapes sont taux d'apprentissage ensemble et les changements échelle, comme lorsque itérer à 400.000 fois, apprentissage temps de décroissance des taux, lorsque 45.000 itérations, l' école le
taux d' apprentissage se décomposeront fois le taux précédent sur la base de l' apprentissage

[Convolutif] ★ une configuration de couche de convolution décrite
batch_normalize = 1 ★ si le traitement BN, BN et ce qui ne se répète pas ici, est de 1, 0 est pas
filtres = ★ noyau de convolution du numéro 32, mais également le nombre de canaux de sortie
size = 3 ★ convolution noyau taille
foulée = 1 ★ étape de convolution
si 0 pad de rembourrage = 1 ★ convolution dans le temps, le numéro de rembourrage liée à la taille du noyau de convolution, de la taille / 2 vers le bas arrondi, tel que le 3 / 2 = 1
activation ★ = Leaky fonction d'activation de la couche réseau
★★ 3 * 3 convolution de taille du noyau de rembourrage avec une taille de pas de 1, sans modifier la taille de la carte de caractéristiques

Downsample

[Convolutif] ★ downsampling configuration de couche décrite
batch_normalize. 1 =
Filtres = de 64
size = 3
un pas de 2 =
PAD. 1 =
Activation = Leaky ★★ convolution taille noyau de 3 * 3, avec une taille de pas de remplissage est égal à 2, la fonction carte devient la moitié de la taille d' origine

[Raccourci] ★ shotcut instructions de configuration de la couche
de = -3 ★ fusionné avec le nombre précédent de fois, -3 indique qu'une troisième couche
activation = linéaire ★ fonction d'activation de niveau
...
...
[convolutif] ★ couche de la couche de convolution qui précède , disposé YOLO DESCRIPTION
taille. 1 =
un pas de. 1 =
PAD. 1 =
Filtres Filtres ★ = NUM = 255 (le nombre de bloc de prédiction) (cours + 5), ce qui signifie que les coordonnées des quatre 5 plus un taux de confiance, thèse tx, ty, tw, TH,
C, le nombre de classes pour la catégorie, COCO est 80, le nombre de blocs dans chaque cellule YOLO num est prédite, 3 YOLOV3 pour
quand ★★★ propre usage, où la valeur doit être réglée en fonction de leurs données changements, par exemple quatre catégories vous identifier, puis:
. = Filtres 3
(.. 4 + 5) = 27, trois fileters doivent être modifiée, souvenez - vous
activation = linéaire

[Yolo] ★ instructions de configuration de la couche YOLO
masque = 0,1,2 ★ utilisation de l'ancre d'indice, défini ci - après indication 0,1,2 premier ancrage trois ancres
ancres = 10,13, 16,30, 33 est, 23 est, 30 et 61, 62,45, 59119, 116,90, 156.198, 373,326
cours ★ = 80 le nombre de classes
num = 9 ★ chaque numéro de cellule de la grille correspondant au nombre prédit zone totale, et les ancres. Lorsque vous souhaitez utiliser plusieurs points d' ancrage doivent transférer de gros NUM
gigue = 0,3 ★ moyens d'amélioration des données, voici une gigue aléatoire ajuster le rapport d'aspect de la gamme, ce paramètre est pas bien comprise, sont décrits en détail dans mes commentaires du code source
ignore_thresh 0,7 =
truth_thresh. 1 ★ = participation IOU taille de seuil calculée. lorsque le sol prédit vrai cadre de détection et la IOU est supérieure à ignore_thresh impliqué le
calcul de la perte, sinon, ne participe pas au calcul de la perte de trame de détection.
★ comprendre: L'objectif est de contrôler la taille de la perte impliquée dans le calcul du cadre de détection lorsque ignore_thresh trop grand, près de 1 fois, puis participer à
nombre de cadres de détection perte de retour sera relativement faible, mais aussi facilement conduire à surajustement, et si ensemble ignore_thresh est trop faible, le
nombre d'échelle impliqués dans le calcul serait formidable. Mais aussi facile à détecter pendant la période du retour causé underfitting.
★ paramètres: généralement entre des valeurs de 0,5 et 0,7, calculé sur la base de l'échelle précédente sont de petite taille (13 13) est 0,7,
(26
26) en utilisant un 0,5. Le premier changement de 0,5 à 0,7. Référence: HTTPS: //www.e-learn.cn/content/qita/804953
aléatoire ★ 1 = 1 pour activer la formation aléatoire est multiscale 0 Fermer
★★ Astuce: Lors de l' ouverture de jeu multi - échelles formation aléatoire précédemment la largeur et la hauteur des dimensions du réseau d'entrée ne fonctionnent pas réellement, la largeur des
valeurs aléatoires entre 320-608, et la largeur = hauteur, 10 ne variait pas au hasard une fois que leurs recommandations générales peuvent être modifiés en fonction des besoins
gamme de la formation aléatoire échelle, cela peut augmenter le lot, j'espère que le lecteur d'essayer!

Auteur: Pie Pie Zi Feng
lien: https: //www.jianshu.com/p/3aa0830ff5f8%20
Source: Jane livre
copyright livre Jane réservé par les auteurs, sont reproduits sous quelque forme, s'il vous plaît contacter l'auteur pour obtenir l' autorisation et indiquer la source.

Publié 41 articles originaux · won Comme 7 · vues 3673

Je suppose que tu aimes

Origine blog.csdn.net/weixin_43091087/article/details/103850546
conseillé
Classement