Notes de fragments|Stratégie de décodage entraînable et non autorégressive

Avant-propos : Il y a quelque temps, lors d'une discussion avec un senior, je l'ai entendu accidentellement mentionner une stratégie de décodage entraînable . Je pensais que c'était très frais, alors j'ai écrit cet article. Cet article décrit brièvement le processus de développement de stratégies de décodage entraînables et les idées de plusieurs ouvrages classiques. (La première version de cet article a été rédigée le 16 mars 2023)

Les stratégies de décodage conventionnelles font généralement référence à des stratégies de décodage autorégressives, comprenant principalement : la recherche gloutonne, la recherche de faisceau, l'échantillonnage top-k et top-p. L'idée principale est de générer du texte un par un en référence aux informations générées. Comme ce n'est pas le cas, Cet article est l'objet de cet article, il ne sera pas abordé ici. Pour une introduction, consultez ce blog .


Direction d'optimisation de la stratégie de décodage

Il existe de nombreuses directions d'optimisation pour la stratégie de décodage, telles que la conversion de style, la vitesse de décodage et l'amélioration de la richesse. Ce qui suit est une introduction aux travaux existants basés sur la direction d'optimisation de la stratégie de décodage.

changement de style

Une stratégie de décodage bien conçue peut également être considérée comme une méthode de génération de texte contrôlable. Par exemple, contrôlez le style, l'ambiance et d'autres informations du texte généré.

vitesse de décodage

Faites attention à clarifier quelle stratégie de décodage est améliorée

Accélérer le décodage de la traduction automatique neuronale en réduisant le vocabulaire d'exécution (ACL, 2017)
idée principale : augmenter le taux de décodage en réduisant le vocabulaire pendant la phase de test

Décodage approximatif parallèle bruyant pour le modèle de langage récurrent conditionnel (2016 arXiv)
Idée principale de l'Université de New York (Kyunghyun Cho) : décodage approximatif parallèle bruyant

stratégie de décodage non autorégressive

Augmentez la vitesse de décodage en générant du texte en parallèle. La plus grande caractéristique est le parallélisme, et grâce au parallélisme, la vitesse de décodage est grandement améliorée. (Focus sur l'augmentation de vitesse à quel prix dans l'article)

Décodage glouton entraînable pour la traduction automatique neuronale (EMNLP, 2017) L'idée principale de l'Université de New York, Université de Hong Kong (Kyunghyun Cho)
: Concevoir une stratégie de décodage glouton entraînable utilisant l'apprentissage par renforcement

Une stratégie d'apprentissage stable et efficace pour le décodage gourmand entraînable (ACL, 2018) Université chinoise de Hong Kong ; Université de New York (Kyunghyun Cho)
Idée principale : Maximiser la fonction de recherche de faisceau avec une légère augmentation de la charge de calcul

Récupération d'informations séquentielles pour la traduction automatique neuronale non autorégressive (ACL, 2019) L'idée principale de l'Académie chinoise des sciences
: Faire un compromis entre le modèle pur non autorégressif et le modèle autorégressif, et ajouter un module d'informations de séquence


Les références

  1. Améliorations de la formation et accélération du décodage pour la traduction automatique neuronale_Test_DataFunTalk_InfoQSelected Articles
  2. Génération de texte naturel contrôlable (traduction de rapport) - Zhihu (zhihu.com)
  3. Génération de texte neuronal contrôlable | Lil'Log (lilianweng.github.io)
  4. ICLR 2020 LE CAS CURIEUX DE DÉGÉNÉRATION DE TEXTE NEURONAL
  5. Comment générer du texte : utiliser différentes méthodes de décodage pour la génération de langage avec Transformers (huggingface.co)

Je suppose que tu aimes

Origine blog.csdn.net/qq_36332660/article/details/132337358
conseillé
Classement