[Paper Reading Notes 74]La puissance de l'échelle pour un réglage rapide efficace des paramètres

1. Informations de base

sujet Auteur de l'article et unité source années
La puissance de l'échelle pour un réglage rapide efficace des paramètres Brian Lester sur google Conférence sur les méthodes empiriques en traitement du langage naturel 2021

857 Citations

Lien papier : https://arxiv.org/abs/2104.08691

Code papier : https://github.com/google-research/prompt-tuning

en outre:

google-research/prompt-tuning

kipgparker officiel/soft-prompt-tuning

mkshing/Prompt-Tuning

corolle-johnson/mkultra

arazd/ProgressivePrompts

2. Points clés

Sujets de recherche fond de problème Flux de méthode de base points forts base de données en conclusion type de thèse mots clés
Réglage fin du grand modèle de langue Pour les indices durs précédents de GPT-3, cet indice peut être appris grâce à des données supervisées, en apprenant des indices doux. L'idée est similaire à celle du réglage de préfixe. Un réglage rapide est proposé. Ici, nous nous concentrons sur k jetons, et faisons également beaucoup de comparaisons expérimentales. 1. Proposer un "réglage rapide" dans un grand système de modèle de langage et démontrer la compétitivité du réglage du modèle ; 2. Grâce à des expériences d'ablation, la qualité et la robustesse s'améliorent avec l'augmentation de l'échelle. 3. Affiner le modèle de réglage rapide dans les expériences inter-domaines. 4. Invitez "l'assemblage rapide" et prouvez son efficacité par des expériences. super colle L'apprentissage en quelques coups de GPT-3 est mentionné. La possibilité de réutiliser un modèle gelé pour plusieurs tâches en aval allège cette charge. Cette méthode peut être considérée comme une simplification du réglage des préfixes. Un réglage rapide a été proposé et une comparaison expérimentale a été faite. invites douces, réglage rapide

"invites douces
« Différent de l'indice dur précédent de GPT-3, cet indice peut être appris grâce à des données supervisées. texte k jetons réglables supplémentaires.

Les résultats expérimentaux de l'article : les résultats du modèle T5 sous différentes méthodes d'entraînement

pCCjq3V.png

3. Modèle (contenu principal)

La différence entre le réglage fin du modèle traditionnel et le réglage fin rapide

Pour les modèles traditionnels : pour chaque tâche en aval spécifique, il est nécessaire de copier un modèle pré-entraîné complet, qui doit également être un lot distinct lors de l'inférence.

Pour le réglage des invites : pour chaque tâche, il suffit d'enregistrer une invite pour une tâche spécifique relativement petite, et les données de plusieurs tâches peuvent être mélangées et placées dans un seul lot.

pCCjVkn.png

Le modèle définit toutes les tâches comme une génération de texte à texte. Par exemple, Pr θ ; θP ( Y | [ P ; X ]), Pr est le modèle T5, θ représente les paramètres de poids du modèle, qui doivent être figés lors de l'apprentissage, θP est le paramètre de la partie prompt, qui va être mis à jour pendant la formation, et Y représente la chaîne de jeton, P signifie invite et X demande une chaîne de jeton.

Formalisez la définition suivante : la chaîne d'origine est n jetons, promt est p jetons, et les deux sont fusionnés au moment de l'entrée, de sorte que la matrice lors de l'intégration devient (p+n)*e dimension.

pCFZc8K.png

4. Expérience et analyse

pCFrlqg.png

en conclusion:

Longueur du paramètre d'invite :Lorsque la longueur du paramètre d'invite dépasse 20, l'effet du modèle global n'est pas très évident. Lorsque le modèle pré-entraîné est grand, la différence de performances des différentes longueurs de paramètre d'invite est faible.

**Schéma d'initialisation des paramètres d'invite :** La méthode d'initialisation non aléatoire est meilleure que l'initialisation aléatoire, et l'effet Class Label est relativement meilleur,

L'effet du vocabulaire échantillonné et de l'étiquette de classe est significativement meilleur que l'initialisation aléatoire.

  • Le schéma uniforme aléatoire est initialisé de manière aléatoire à partir d'une distribution uniforme ;
  • vocabulaire échantillonné : Sélectionnez les 5000 mots les plus courants du corpus de T5.
  • Libellé de classe : Prenez-le du jeton correspondant au libellé dans la tâche en aval. Lorsqu'une étiquette a plusieurs jetons, prenez sa valeur moyenne. Si le nombre est insuffisant, retirez-le de l'échantillon.

**Impact des objectifs de pré-formation :** L'auteur pense que la méthode d'apprentissage consistant à utiliser ces sentinelles non naturelles pour guider la réponse n'est pas bonne pour l'invite. Annulation de la tâche de corruption de portée dans la pré-formation.

L'auteur a adopté LM Adaptation (essayant de convertir T5 en style GPT3), de sorte que le modèle génère toujours un texte réel. En même temps, toutes les tâches sont transformées en tâches de génération de texte (similaire à la méthode "text-to-text" de T5).

De plus, il existe une expérience de décalage de domaine : l'utilisation de la méthode rapide a un meilleur effet de généralisation que l'ajustement direct du modèle ;

pCFLUsS.png

, Assemblage d'invites : le résultat de l'intégration de la prédiction d'invite sur la tâche SueprGLUE est meilleur que le résultat de prédiction moyen.

pCFLfZ4.png

5. Résumé

Il y a encore beaucoup d'expériences et de nouvelles découvertes. Très similaire à l'accord de préfixe. Seul le langage utilisé est différent.

6. Collecte des connaissances (points de connaissance, littérature à lire, extraction du texte original)

Un algorithme de recherche sur des espaces de mots discrets guidé par des données d'apprentissage pour les applications en aval : AutoPrompt : obtention de connaissances à partir de modèles de langage avec des invites générées automatiquement

Expérience de changement de domaine : Le soi-disant changement de domaine est en fait une expérience inter-domaine, c'est-à-dire que la distribution de l'ensemble d'apprentissage et de l'ensemble de test sont différentes pour tester les performances de généralisation du modèle.

**Span Corruption : **Span Corruption est l'une des tâches de pré-formation T5, qui masque des phrases complètes en fonction de durées aléatoires. Tels que : phrase originale : "Merci de m'avoir invité à votre fête la semaine dernière"

Après Span Corruption, obtenez une entrée : "Merci [X] à votre fête [Y] semaine" ; cible : "[X] pour avoir invité [Y] le dernier [Z]". Parmi eux, une série de codes auxiliaires tels que [X] sont appelés sentinelles.

Le jeton sentinelle est en fait une sentinelle.

7. Références

https://zhuanlan.zhihu.com/p/551174711

https://zhuanlan.zhihu.com/p/415168620

réalisé par happyprince

Je suppose que tu aimes

Origine blog.csdn.net/ld326/article/details/131096975
conseillé
Classement