Image de génération de texte de diffusion stable comment écrire des mots rapides

Stable Diffusion est une technologie basée sur un réseau neuronal qui génère des images correspondantes en saisissant des mots rapides. Afin d'obtenir une sortie d'image de haute qualité, vous devez choisir des mots rapides appropriés et vous assurer qu'ils stimulent l'imagination et la créativité du modèle.

Voici quelques suggestions pour écrire des mots rapides :

  1. Déterminez le sujet : Tout d'abord, déterminez le sujet ou le contenu de l'image que vous souhaitez générer. Par exemple, vous pouvez choisir des paysages naturels, de l'art abstrait, des scènes de science-fiction, etc. Clarifier le sujet aide à guider le modèle pour générer du contenu lié au sujet.
  2. Utilisez un langage clair et concis : Essayez de décrire vos besoins dans un langage simple et clair. Évitez le vocabulaire trop complexe ou vague qui peut prêter à confusion.
  3. Fournissez suffisamment de détails : fournissez suffisamment de détails au modèle pour qu'il puisse comprendre avec précision vos besoins. Par exemple, si vous souhaitez générer une image d'un ciel étoilé la nuit, vous pouvez décrire le nombre, la couleur, la distribution, etc. des étoiles.
  4. Tirez parti des adjectifs et des adverbes : l'utilisation d'adjectifs et d'adverbes peut aider le modèle à comprendre vos pensées plus précisément. Par exemple, vous pouvez décrire « étoile brillante », « étoile filante scintillante », etc.
  5. Évitez les mots restrictifs : essayez d'éviter d'utiliser des mots restrictifs, tels que "doit", "peut seulement" et ainsi de suite. Cela peut limiter l'imagination et la créativité du modèle. Au lieu de cela, essayez d'utiliser des questions ouvertes telles que "Veuillez imaginer...".
  6. Utilisez des exemples : pour aider le modèle à mieux comprendre vos besoins, vous pouvez fournir des exemples réels ou des exemples d'images à titre de référence. Cela permet au modèle de saisir plus facilement les points clés et de générer des images qui correspondent aux attentes.

texte en image

Veuillez d'abord comprendre les paramètres de base fournis par l'application Web SD-WebUI via les [Bases de l'ajustement des paramètres] précédents.

Les sources de contenu suivantes sont organisées par le réseau

comment écrire des invites

Ceci est un guide général, le contenu est fondamentalement général, il peut y avoir des exceptions, veuillez lire les chapitres correspondants pour comprendre les caractéristiques des différentes applications.

CONSEIL

Les mots d'invite sont des invites plutôt qu'une base de jugement. Par exemple, lorsque vous saisissez des mots de jugement de qualité, vous limitez en fait la portée des données, plutôt que "d'exiger" que l'IA produise une bonne image.

étiquette de mot

Pour les modèles entraînés spécifiquement sur les mots d'étiquette, il est recommandé d'utiliser des mots séparés par des virgules comme invites.

Les mots couramment vus, par exemple, sont des balises bien connues (telles que Danbooru) qui peuvent être trouvées sur le site source de l'ensemble de données. Le style des mots doit correspondre au style général de l'image, sinon il y aura des styles mixtes ou du bruit.

Évitez les fautes de frappe. Un modèle NLP peut diviser les mots mal orthographiés en lettres pour le traitement.

langage naturel

Pour les modèles formés au langage naturel, il est recommandé d'utiliser des phrases décrivant des objets comme mots de repère.

Selon l'ensemble de données utilisé pour la formation, l'anglais, le japonais, des symboles spéciaux ou certains chinois peuvent être utilisés. L'anglais est plus efficace dans la plupart des cas.

Évitez withles conjonctions comme , ou la syntaxe complexe, la plupart du temps, le modèle NLP ne fera que le strict minimum.

Évitez les accents (tels que é et è) et les trémas allemands (tels que ä et ö), qui peuvent ne pas être mappés dans la sémantique correcte.

Il n'est pas recommandé d'appliquer des modèles prêts à l'emploi au hasard, en particulier des modèles qui ne peuvent pas être compris par les humains.

Kaomoji

Pour les modèles utilisant des données Danbooru, vous pouvez utiliser des émoticônes pour contrôler l'expression du graphique dans une certaine mesure.

Par exemple:

:-)Souriant Mécontent Clin :-(d' ;-)œil Heureux :-DSortir :-Pla langue :-CTriste Surpris :-OBouche ouverte :-/Douteux

espace

Une petite quantité d'espaces avant et après la virgule n'affecte pas l'effet réel.

Les espaces supplémentaires au début et à la fin sont simplement ignorés. Les espaces supplémentaires entre les mots sont également supprimés.

signe de ponctuation

\0Séparer les mots-clés par des virgules, des points ou même des caractères vides ( ) peut améliorer la qualité de l'image. On ne sait pas quel type de ponctuation ou quelle combinaison fonctionne le mieux. En cas de doute, faites-le simplement de manière à rendre l'invite plus facile à lire.

Pour certains modèles, il est recommandé de _convertir les traits de soulignement ( ) en espaces.

mot de style artistique

Vous pouvez créer des images avec des effets spéciaux ou un style de peinture spécifié en spécifiant des mots-clés de style.

mouvement et posture

Choisissez des indices qui ne sont pertinents que pour quelques poses s'ils ne sont pas très exigeants.

La pose fait ici référence à la configuration physique de quelque chose : la position et la rotation d'un sujet d'image par rapport à la caméra, les angles des articulations homme/robot, la façon dont un bloc de gelée est compressé, etc. Moins il y a de variance dans les choses que vous essayez de spécifier, plus il est facile pour le modèle d'apprendre.

Étant donné que le mouvement implique par définition de grands changements dans la posture du sujet, les signaux associés au mouvement entraînent souvent des distorsions du corps, telles que des membres répétés. De plus, comme les membres humains, en particulier les mains et les pieds humains, ont de nombreuses articulations, ils peuvent prendre de nombreuses poses différentes et complexes. Cela rend leurs visualisations particulièrement difficiles à apprendre, tant pour les humains que pour les réseaux de neurones.

En bref : de bonnes images d'humains debout/assis sont faciles, de bonnes images d'humains sautant/courant sont difficiles.

comment écrire

modèle

Réfléchissez à ce que vous devez dessiner en premier, comme le sujet, l'apparence, l'émotion, les vêtements, la pose, l'arrière-plan, etc., puis reportez-vous au tableau des étiquettes de l'ensemble de données (si disponible, comme Danbooru, Pixiv, etc.).

Ensuite, regroupez les mots-clés similaires souhaités, en utilisant la demi-largeur anglaise , comme séparateurs, et organisez-les du plus important au moins important.

Un exemple de modèle est le suivant :

(quality), (subject)(style), (action/scene), (artist), (filters)
  • (quality)Représente la qualité de l'image, telle que l'utilisation low rescombinée stickerpour "utiliser" davantage d'ensembles de données et l'utilisation 1girlcombinée high qualitypour obtenir des images de haute qualité.
  • (subject)Représenter le sujet de l'écran, ancrer le contenu de l'écran, est un élément fondamental de toute réplique.
  • (style)est le style d'écran, facultatif.
  • (action/scene)Représente une action/scène, décrivant ce que le sujet a fait où.
  • (artist)Représente le nom de l'artiste ou le nom de la société de production.
  • (filters)Représente quelques détails, complétés. Les artistes, studios, termes de caméra, noms de personnages, styles, effets spéciaux, etc. peuvent être utilisés.

capitalisation

Le tokenizer de CLIP met en minuscules tous les mots avant la tokenisation. D'autres modèles, comme BERT et T5, traitent les mots en majuscule différemment des mots sans majuscule.

Mais évitez d'impliquer une syntaxe spéciale au cas où elle serait interprétée comme une autre sémantique, par exemple AND.

ordre lexical

Il semble que les VAE utilisent une méthode statistique appelée théorème de Bayes. Lors du calcul de la destination des jetons, les premiers mots semblent ancrer la distribution des mots restants dans l'espace latent.

Les marqueurs antérieurs ont des positions plus cohérentes, il est donc plus facile pour le réseau neuronal de prédire leur pertinence. Dans l'inférence bayésienne, le premier jeton ou preuve dans la matrice est important car il définit la condition de probabilité initiale. Mais les éléments ultérieurs ne font que modifier la condition de probabilité. Ainsi, du moins en théorie, les derniers jetons ne devraient pas avoir plus d'influence que les jetons précédents.

Mais la façon dont l'analyseur comprend les choses est opaque, il n'y a donc aucun moyen de savoir avec certitude si l'ordre lexical a un effet "d'ancre".

longueur du mot d'invite

Évitez les mots longs.

L'ordre dans lequel les mots rapides sont mis est la priorité. Etant donné que la valeur de poids des mots d'invite diminue de l'avant vers l'arrière, les mots d'invite placés particulièrement tard ont peu d'effet sur la génération réelle de l'image.

C'est une bonne habitude de ne pas empiler les mots d'indication, mais si vous avez vraiment beaucoup de contenu à écrire, vous pouvez augmenter le nombre d'étapes de génération de manière appropriée pour mieux utiliser les mots d'indication dans le processus de génération.

La façon dont SD-WebUI dépasse la limite de 75 phrases maximum est de regrouper tous les 20 + 55 mots. option Increase coherency by padding from the last comma within n tokens when using more than 75 tokenspour que le programme tente d'atténuer cela en recherchant la dernière virgule dans les N derniers jetons et, si c'est le cas, en déplaçant tout au-delà de cette virgule ensemble dans l'ensemble suivant. Cette stratégie peut atténuer correctement le problème qu'il y a trop de mots d'invite à traiter, mais elle peut détruire la relation de poids entre les mots d'invite.

En plus de la gestion spéciale de cette situation par WebUI, en raison de la limitation du modèle GPT-3, l'espace de traitement des mots d'invite n'est pas illimité, la plupart d'entre eux font entre 75 et 80 caractères, et le contenu après 75 caractères sera être tronqué.

spécificité

Le problème se manifeste dans le décalage sémantique. Pour l'entraînement des réseaux de neurones, la qualité des fonctionnalités est importante : plus la connexion entre l'entrée et la sortie est forte, plus il est facile pour le réseau de neurones d'apprendre cette connexion.

En d'autres termes, si un mot-clé a une signification très précise, il est beaucoup plus facile d'apprendre son association avec une image que si un mot-clé a une signification très large.

De cette façon, même un mot-clé rarement utilisé comme "Zettai Ryouiki" peut produire de très bons résultats car il n'est utilisé que dans des cas très spécifiques. D'un autre côté, "anime" même étant un mot relativement courant ne donne pas d'excellents résultats, probablement parce qu'il est utilisé dans de nombreuses situations différentes, même pour les anime qui n'ont pas de sens littéral. Le choix de mots-clés spécifiques est particulièrement important si vous souhaitez contrôler le contenu de vos images. Aussi : moins votre formulation est abstraite, mieux c'est. Si possible, évitez les formulations qui laissent place à l'interprétation ou qui nécessitent une "compréhension" de quelque chose qui n'appartient pas à l'image. Même des concepts comme « grand » ou « petit » sont problématiques car ils ne peuvent être distingués des objets proches ou éloignés de la caméra. Idéalement, utilisez un libellé qui a de fortes chances d'apparaître textuellement sur le titre de l'image que vous souhaitez.

déséquilibre sémantique

Chaque indice est comme un colorant, ils ont des "affinités" différentes, et si l'indice le plus courant, par exemple ( loliplacé à côté d'autres indices) a un impact plus important que l'autre indice.

Par exemple, si vous souhaitez générer des images d'anime et utiliser la startrailbalise de ciel étoilé, il y aura plus d'éléments étoilés à partir de vraies photos que le ciel étoilé d'anime que vous attendez.

De nombreux mots ont des poids différents sur la référence, des ajustements raisonnables doivent donc être effectués en fonction de l'effet.

invite négative

L'application Web SD-WebUI évitera de générer du contenu mentionné par des mots d'invite négatifs lors de la génération de fichiers .

Les conseils négatifs sont une façon d'utiliser Stable-Diffusion, permettant à l'utilisateur de spécifier ce qu'il ne veut pas voir sans faire d'exigences supplémentaires sur le modèle lui-même.

En spécifiant unconditional_conditioningle paramètre, lors de la génération, l'échantillonneur regarde la différence entre l'image débruitée qui correspond à la réplique (château) et l'image débruitée qui ressemble à une réplique négative (granuleux, brumeux) et essaie de rendre le résultat final plus éloigné du négatif rapide.

facteur de poids

Les facteurs de pondération peuvent modifier le poids de parties spécifiques du mot d'invite.

Pour plus d'informations, voir Wiki:accent mis sur l'attention

Pour SD-WebUI, les règles spécifiques sont les suivantes :

  • (word)- Augmenter le poids de 1,1 fois
  • ((word))- Augmenter le poids de 1,21 fois (= 1,1 * 1,1), relation multiplicative.
  • [word]- Réduire le poids de 90,91 %
  • (word:1.5)- Augmenter le poids de 1,5 fois
  • (word:0.25)- Réduire le poids à 25% de l'original
  • \(word\)- Utilisez des caractères littéraux () dans les mots d'invite

Les parenthèses sont obligatoires lorsque vous spécifiez des pondérations à l'aide de nombres (). Si aucun poids numérique n'est spécifié, il est supposé 1.1. La spécification d'un seul poids n'est disponible que pour SD-WebUI.

Indépendamment du script spécifique utilisé, la répétition d'un mot-clé semble augmenter son effet.

Il convient de noter que plus il y a de mots rapides dans votre invite, moins un seul mot rapide aura d'impact. Vous remarquerez également que le style s'estompe lors de l'ajout de nouveaux mots de repère pour cette raison. Il est fortement recommandé de varier la force des mots de style à mesure que la longueur de l'invite augmente afin de maintenir un style cohérent.

Réseau source de lecture étendu

Je suppose que tu aimes

Origine blog.csdn.net/u014096024/article/details/132012899
conseillé
Classement