principe GAN

Une variété de divergence

Entropy

Insérer ici l'image Description
La quantité d'information portée par la distribution P
/ en
utilisant le nombre minimum d'octets requis pour coder la distribution à base P-P de l'échantillon

entropie croisée

Insérer ici l'image Description
P diffusion de l' information dans la perspective de vue de la distribution de Q
/
échantillon d'utilisation basée sur la distribution P Q « longueur de code moyenne » requis pour coder souhaité
pourquoi la perte d'entropie croisée peut être utilisé pour mesurer? Référence
distribution d'entropie de l' échantillon de formation P est constante, égale à une minimisation d' entropie croisée minimale de divergence KL, à savoir la quantité d'information avec la distribution de courant en fonction de la distribution de la perte de données d'apprentissage.

KL marée

Insérer ici l'image Description
Insérer ici l'image Description
asymétrie non négatif

Répartition Q en utilisant environ de la perte d'informations lorsque la distribution du P
/
sur la base codant pour Q « longueur supplémentaire nécessaire pour le code » distribution d'échantillon de P.

divergence JS

Insérer ici l'image Description
Plus similaire plus la symétrie entre 0-1

principe GAN

La perte du discriminateur de GAN initial défini, on peut obtenir la forme optimale du discriminateur, dans le discriminateur optimum, peut définir le générateur de GAN d'origine dans une perte équivalente minimiser la distribution réelle P r p_r Et la production distribuée P g P_g JS divergence entre.
Insérer ici l'image Description
Insérer ici l'image Description
Insérer ici l'image Description
Correction G, D optimale est déterminée, puis son remplacement par max DV (G, D), pour donner la divergence JS, minimum -2log2
minimiser la formule ci - dessus, à savoir, la divergence JS optimisé, alors il doit yInsérer ici l'image Description

problèmes de formation

  1. G, D Formation sur l'autre
    après la mise à jour G, la divergence JS ne correspond à un plus petit, mais affecte également la V courbe (G, D), et que la prochaine MAXV (G, D) peut devenir grand, et qui est D la capacité à adapter à la fois la distribution pire
    solution plusieurs fois mis à jour D, G mis à jour
  2. JS résolution de problèmes de divergence plus bruit
    image est faite de vecteur à faible dimension pour générer de grande dimension, étant donné que P r p_r et P g P_g Presque impossible d'avoir un chevauchement non négligeable, de sorte que peu importe à quelle distance ils sont des constantes divergence JS Journal 2 \ Log 2 ,aboutir finalement au générateur de gradient (environ) est0, le gradient disparaît.
  3. conduit l' amélioration de la perte de générateur à l' instabilité et le manque de diversité de mode effondrement Insérer ici l'image DescriptionInsérer ici l'image Description
    Insérer ici l'image Description
    égale à minimiser , Insérer ici l'image Description
    mais aussi de minimiser KL, mais aussi pour maximiser l' instabilité du gradient JS

KL problèmes antérieurs: Asymétrique
Insérer ici l'image Description
première génération est pas de véritable ensemble d' échantillons de données existe, la seconde est l'erreur généré aucune donnée réelle dans l'échantillon, alors je préfère ne pas générer échantillon de la diversité, pas tâtonnement.

Wgan

Terre-Mover (EM) distance

Et W (p_R, P_g) est la « consommation minimale » sous la « planification de trajectoire optimale. »
Dans toute la distribution conjointe possible, à la recherche des échantillons réels et générer la distance échantillon souhaité, en prenant la borne inférieure désiré.
Autrement dit, la distribution conjointe optimale, Pr déplacé à la consommation minimale de p.
Wasserstein comparé distance de divergence KL, la supériorité de divergence JS est que, même si les deux distributions ne se chevauchent pas, la distance restant à refléter la distance de celle - ci Wasserstein.

Wgan

Insérer ici l'image Description
vrais échantillons prélevés à f (x), pour générer un échantillon est prélevé -f (x) de la filière, il y a des restrictions sur le paramètre de gradient w.
Insérer ici l'image Description
Laplace continueInsérer ici l'image Description

La différence entre le GAN d' origine:
1. fonction de perte
Insérer ici l'image Description

  1. paramètre de Laplace tronquée aux conditions MEET
    Insérer ici l'image Description

  2. Retrait du discriminateur sigmoïde
    parce que le D original (x) est égal à 0, l'ajustement de la valeur, et où le raccord est loin d'discriminateur Wassertain.

relativistes GAN

Insérer ici l'image Description
Insérer ici l'image Description

Publié 35 articles originaux · a gagné les éloges 2 · Vues 1417

Je suppose que tu aimes

Origine blog.csdn.net/qq_30776035/article/details/104694112
conseillé
Classement