Notes papier : BERT de la PNL, ERNIE (l'utilisation du mode de pré-formation dans les tâches de la PNL)

Notes papier : Le principe et l'application de BERT, le principe et l'évolution d'ERNIE

réf :
Explication détaillée de l'historique de l'évolution d'ERNIE-Baidu et des scénarios d'application
Innovation à l'ère Bert : Comparaison des modèles d'application Bert et autre
de Word Embedding au modèle Bert - l'histoire du développement de la technologie de pré-formation dans le traitement du langage naturel

1.ELMO : intégration à partir de modèles de langage/représentation de mots contextualisés en profondeur

Par rapport à l'incorporation de mots, ELMO introduit des informations contextuelles lors de la construction d'un modèle de langage. Utilisez le contexte avant et le contexte après pour former le mot de position actuel. Il permet au modèle de langage de juger la sémantique en fonction du contenu du contexte, résolvant ainsi le problème ambigu.

Dans le même temps, ELMO adopte la préformation basée sur les fonctionnalités. Dans le modèle de pré-formation, les résultats (matrice) de chaque couche sont directement sortis et combinés. Alimentez les résultats fusionnés dans les tâches en aval. L'avantage est que la structure du réseau des tâches en aval n'a pas besoin d'être modifiée avec ELMO, mais l'inconvénient est qu'il n'est pas aussi efficace que le mode de réglage fin

2. GPT:Réglage fin de préformation générative

Cet article propose de manière innovante un transformateur en tant qu'extracteur de caractéristiques pour un prétraitement unidirectionnel, suivi d'un mode de réglage fin pour les tâches en aval. Semblable à BERT, pas aussi populaire que BERT.

3. BERT:Transformateur de représentation d'écondeur bidirectionnel

Accent mis sur 1. Le modèle de base pré-formé 2. Les tâches en aval du réglage fin.
La raison du succès est 1. Utilisation du transformateur 2. Traitement bidirectionnel des données

Deux types de données ont été utilisées pour la formation

  1. modèle de langage masqué : 15 % de mots payés au hasard
  2. Prédiction de la phrase suivante : les étiquettes suivantes/non suivantes font-elles l'entraînement ?

Encodeur BERT : Transformateur bidirectionnel multicouche, sans attention dans les deux sens.

4.ERNIE :

ERNIE 1.0 : Optimisation des tâches NLP chinoises basée sur BERT en 2019
Amélioration de la méthode de masque :

  1. masquage de base, conforme au BERT d'origine
  2. masquage au niveau de la phrase, le masque de la phrase locale
  3. le masquage au niveau de l'entité, un masque basé sur la connaissance de l'entité
    (il convient de mentionner que la différence avec ERNIE-tsinghua ici est d'utiliser directement l'intégration KG dans le modèle)

Tâche DLM : tâche de modèle de langage de dialogue
ERNIE a modifié le formulaire de saisie de BERT, en utilisant plusieurs cycles de dialogue, ce qui a ajouté un dialogue incorporant une combinaison de plusieurs cycles de dialogue

ERNIE2.0 : cadre de pré-formation continue pour la compréhension des langues
ERNIE2.0 introduit le concept d'apprentissage continu/d'apprentissage tout au long de la vie. Dans ERNIE2.0, la SoA de différentes tâches est améliorée en ajoutant continuellement des tâches, tout en garantissant l'exactitude des connaissances acquises précédemment. tâches n'est pas élevée. Réduit
(parce que MT-DNN prouve qu'en respectant les personnes âgées, l'ajout de plusieurs tâches en aval et l'exécution d'un réglage fin peuvent obtenir directement le résultat SoA)

Dans cet article, ERNIE2.0 utilise une méthode intelligente pour éviter le problème de l'oubli d'apprentissage dans l'apprentissage tout au long de la vie. En gardant le modèle de tâche précédent inchangé, utilisez la copie pour former les tâches suivantes, puis obtenez de meilleurs résultats (voir ici
pour une description détaillée )

Réglage fin : compatible avec
le modèle BERT : l'intégration de tâches est ajoutée,
il y a donc intégration de tâches, intégration de position, intégration de segments, intégration de jetons dans ERNIE

Je suppose que tu aimes

Origine blog.csdn.net/jxsdq/article/details/105849839
conseillé
Classement