article Annuaire
Une variété de divergence
Entropy
La quantité d'information portée par la distribution P
/ en
utilisant le nombre minimum d'octets requis pour coder la distribution à base P-P de l'échantillon
entropie croisée
P diffusion de l' information dans la perspective de vue de la distribution de Q
/
échantillon d'utilisation basée sur la distribution P Q « longueur de code moyenne » requis pour coder souhaité
pourquoi la perte d'entropie croisée peut être utilisé pour mesurer? Référence
distribution d'entropie de l' échantillon de formation P est constante, égale à une minimisation d' entropie croisée minimale de divergence KL, à savoir la quantité d'information avec la distribution de courant en fonction de la distribution de la perte de données d'apprentissage.
KL marée
asymétrie non négatif
Répartition Q en utilisant environ de la perte d'informations lorsque la distribution du P
/
sur la base codant pour Q « longueur supplémentaire nécessaire pour le code » distribution d'échantillon de P.
divergence JS
Plus similaire plus la symétrie entre 0-1
principe GAN
La perte du discriminateur de GAN initial défini, on peut obtenir la forme optimale du discriminateur, dans le discriminateur optimum, peut définir le générateur de GAN d'origine dans une perte équivalente minimiser la distribution réelle
Et la production distribuée
JS divergence entre.
Correction G, D optimale est déterminée, puis son remplacement par max DV (G, D), pour donner la divergence JS, minimum -2log2
minimiser la formule ci - dessus, à savoir, la divergence JS optimisé, alors il doit y
problèmes de formation
- G, D Formation sur l'autre
après la mise à jour G, la divergence JS ne correspond à un plus petit, mais affecte également la V courbe (G, D), et que la prochaine MAXV (G, D) peut devenir grand, et qui est D la capacité à adapter à la fois la distribution pire
solution plusieurs fois mis à jour D, G mis à jour - JS résolution de problèmes de divergence plus bruit
image est faite de vecteur à faible dimension pour générer de grande dimension, étant donné que et Presque impossible d'avoir un chevauchement non négligeable, de sorte que peu importe à quelle distance ils sont des constantes divergence JS ,aboutir finalement au générateur de gradient (environ) est0, le gradient disparaît. - conduit l' amélioration de la perte de générateur à l' instabilité et le manque de diversité de mode effondrement
égale à minimiser ,
mais aussi de minimiser KL, mais aussi pour maximiser l' instabilité du gradient JS
KL problèmes antérieurs: Asymétrique
première génération est pas de véritable ensemble d' échantillons de données existe, la seconde est l'erreur généré aucune donnée réelle dans l'échantillon, alors je préfère ne pas générer échantillon de la diversité, pas tâtonnement.
Wgan
Terre-Mover (EM) distance
Dans toute la distribution conjointe possible, à la recherche des échantillons réels et générer la distance échantillon souhaité, en prenant la borne inférieure désiré.
Autrement dit, la distribution conjointe optimale, Pr déplacé à la consommation minimale de p.
Wasserstein comparé distance de divergence KL, la supériorité de divergence JS est que, même si les deux distributions ne se chevauchent pas, la distance restant à refléter la distance de celle - ci Wasserstein.
Wgan
vrais échantillons prélevés à f (x), pour générer un échantillon est prélevé -f (x) de la filière, il y a des restrictions sur le paramètre de gradient w.
Laplace continue
La différence entre le GAN d' origine:
1. fonction de perte
-
paramètre de Laplace tronquée aux conditions MEET
-
Retrait du discriminateur sigmoïde
parce que le D original (x) est égal à 0, l'ajustement de la valeur, et où le raccord est loin d'discriminateur Wassertain.
relativistes GAN