Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

16/03/2020 19:35

Plomb: petit modèle de précision, l'efficacité était significativement meilleure que MLM.

Note: Récemment, Google a annoncé le modèle de langage AI ELECTRA comme modèle open source sur la libération tensorflow. Cette nouvelle méthode utilise une mission de pré-formation appelé détecteur de jeton alternatif (RTD), permettant de positionner simultanément toutes les entrées de l'apprentissage, le modèle de formation bidirectionnelle.

Et, dans le cas des mêmes ressources informatiques, ELECTRA de meilleures performances que les méthodes existantes, dans le cas de seulement 1/30 de la quantité de paramètres pour obtenir non moins favorable que le modèle le plus avancé de la série performance BERT. Google a publié un article connexe décrit les résultats de cette open source, la source Lei Feng réseau AI d'un commentaire sur Réorganiser compilé comme suit.

Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

Le modèle linguistique Situation actuelle et des problèmes

Ces dernières années, les dernières avancées dans le modèle de pré-formation linguistique permet le traitement du langage naturel a également fait des progrès significatifs, y compris certains des modèles les plus avancés, tels que: BERT, roberta, XLNet, ALBERT T5 et ainsi de suite.

Bien que ces méthodes diffèrent dans la conception, mais en particulier l'utilisation des tâches PNL (par exemple: l'analyse des sentiments et de dépannage, etc.) lors de réglage fin, a la même idée, à savoir: l'utilisation d'un grand nombre de texte sans étiquette, pour construire une compréhension commune de la langue modèle.

Par conséquent, les méthodes pré-formation existants sont généralement divisés en deux catégories: le modèle de langue (LM), par exemple: TPG. Une telle méthode de traitement d'un texte d'entrée dans l'ordre de gauche à droite, puis dans le cas du contexte donné précédemment, de prédire le mot suivant.

Un autre masque est le modèle de langage (MLM), par exemple: BERT, et Albert ROBERTA. Ces petites quantités de modèles de mots qui sont le contenu prédictif de l'entrée est bloquée. MLM par rapport à la LM, il a l'avantage de prédiction bidirectionnel, car il peut voir le texte que vous voulez prédire le mot à gauche et à droite.

Cependant, il existe des inconvénients MLM prédictions modèles, des modèles de prédiction sont limitées à un petit sous-ensemble de symboles d'entrée (partie masquée de 15%), réduisant ainsi la quantité d'informations qu'ils reçoivent de chaque phrase, le coût de calcul augmente .

Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

méthodes de formation pré-existants et leurs lacunes. Les flèches indiquent le mot-clé est utilisé pour générer une représentation de sortie donné (rectangle). Gauche: Le modèle de langage traditionnel (comme TPG) en utilisant seul mot gauche du contexte actuel. A droite: modèle de langage de masque (par exemple BERT) sont laissés à droite en utilisant le contexte, pour chaque entrée, mais seulement une fraction du mot prédit

Le nouveau modèle de pré-formation ELECTRA

Précisément afin de remédier aux inconvénients des deux types ci-dessus de modèle de langage, Google a proposé ELECTRA (Learning Efficacement un codeur qui Remplacements Jeton Classifie avec précision) modèle linguistique. Ceci est une nouvelle méthode de pré-formation, le point clé est l'identificateur de texte de formation pré-codeur en tant que générateurs et de ne pas traiter avec le modèle linguistique existant problème.

Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

Documents Adresse: https://openreview.net/pdf?id=r1xMH1BtvB  

A la même taille que les données du modèle, où la quantité de calcul, la performance de la méthode est nettement supérieure à la méthode du type MLM, par exemple BERT et XLNet, plus petit modèle ELECTRA ne nécessite qu'un seul GPU pour obtenir quatre jours de formation.

données expérimentales spécifiques montrent que ce modèle est plus petit que le modèle plus petit pointage BERT élevé COLLE 5 points, et même plus que le modèle TPG (ce modèle est utilisé plus de 30 fois la puissance de calcul) des résultats encore meilleurs.

Lorsque la quantité de calcul et ELECTRA en utilisant moins de 1/4, et peut atteindre les performances ROBERTA COLLE XLNet en langage naturel référence compréhension. Si vous utilisez plusieurs ordinateurs pour former un grand ELECTRA, le modèle dans le classement SQUAD 2.0 ensemble de données Q et comprendre les tâches linguistiques, l'accès aux meilleures performances de pointe. (Voir les données spécifiques quatrième section)

L'idée de base - le remplacement de la détection de jeton

ELECTRA a appelé l'aide du jeton de détection de remplacement (RTD) nouvelle tâche pré-formation que toutes les entrées des positions: tout en apprenant (par exemple, le LM), les modèles à double sens formés (par exemple .: MLM).

Plus précisément, l'objectif ELECTRA est d'apprendre à distinguer entre le mot d'entrée. Il n'utilise un masque, mais d'une suggestion de remplacer le mot dans la distribution d'échantillonnage d'entrée, ce qui résout le masque d'incohérence pour apporter préformation et d'affiner le problème.

Ensuite, un discriminateur recyclage modèle pour prédire chaque mot est les mots de mots ou de remplacement d'origine. L'avantage d'un discriminateur est: modèle d'apprentissage de tous les mots entrent, plutôt que comme MLM, en utilisant uniquement des mots pour dissimuler, de sorte que les calculs sont plus efficaces.

Comme de nombreux développeurs pensent des méthodes d'apprentissage confrontation, ELECTRA vraiment inspiré pour générer le réseau de confrontation (GAN). Mais la différence est, le modèle utilise un apprentissage maximal similaire, mais non conflictuel.

Par exemple, dans la figure ci-dessous, le mot « cuit » peut être remplacé par « mangé. » Bien que ce soit une certaine vérité, mais il ne convient pas à tout le contexte. Préformation besoins de travail pour modèle (à savoir discriminantes) pour déterminer quelles entrées l'étiquette d'origine a été remplacé ou restent les mêmes.

Il est parce que la tâche de classification binaire du modèle est appliqué à chaque mot d'entrée, et non seulement une petite quantité du mot de masque (modèle BERT dans le modèle était de 15%), et par conséquent, l'efficacité de la méthode RTD est plus élevé que MLM. Ce que nous pouvons explique aussi pourquoi moins ELECTRA juste un exemple, obtenir la même raison autre performance du modèle linguistique.

Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

Lorsque toutes les entrées de l'apprentissage de position, la détection de jeton de remplacement le train pour deux voies

Lequel le réseau neuronal du générateur de jetons de remplacement. Générateur de masque cible modèle de langage formé, à savoir après une séquence d'entrée donnée, selon une certaine proportion (généralement 15%) sera remplacé par le masque dans le mot d'entrée, puis obtenir une représentation vectorielle par l'intermédiaire d'un réseau; en utilisant la couche softmax après l'autre, entrer la séquence de mots à prédire la position masquée.

Bien que le générateur de structure similaire à GAN, mais le texte est difficile à appliquer cette méthode à la tâche, donc obtenir une formation fonction objectif est de couvrir mot maximum de vraisemblance alors.

Par la suite, le générateur de discriminateur, et partagent le même mot d'entrée intégrés. discriminateur cible de la séquence d'entrée est de déterminer si chaque position est remplacé par un générateur de texte, si la position du mot correspondant à la séquence d'entrée d'origine ne sont pas identiques, il est déterminé que le remplacement.

Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

Générateur de discriminateur et Neural Network Modèle

contraste spécifiques des résultats

Les chercheurs ELECTRA avec d'autres derniers modèles PNL sont comparés et a constaté que dans le cas étant donné les mêmes calculs budgétaires, il est comparé à la méthode précédente a été une amélioration substantielle de sa performance et roberta et XLNet assez, et l'utilisation moins d'un quart du montant de calcul.

Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

montre l'axe x la quantité de calcul pour le modèle de formation (en unités de flops), l'axe y montre dev pointage de colle. Par rapport au modèle de la PNL pré-formation existants, l'efficacité d'apprentissage ELECTRA est beaucoup plus élevé. Il est à noter que le meilleur modèle actuel (par exemple, T5 (11B)) n'est pas approprié sur COLLE le dessin, parce que les modèles de calcul autres que leur utilisation beaucoup (plus de 10 fois) ROBERTA

Pour améliorer encore l'efficacité, les chercheurs ont essayé un petit modèle ELECTRA qui peut être bien formé en quatre jours seul GPU inhérente.

Bien qu'il soit impossible de réaliser avec la nécessité de former un grand nombre de la même TPU grande précision du modèle, la performance ELECTRA-petite mais toujours très bon, encore mieux que TPG, et la quantité de calcul nécessaire, mais seulement un tiers.

Puis, afin de vérifier si ce résultat peut être une grande échelle, les chercheurs ont utilisé plus de calculs (roberta sur le même montant, environ 10% des T5) a formé un grand modèle ELECTRA.

Les chercheurs grand ELECTRA, roberta, XLNet, BERT ALBERT modèle et des questions réponses à SQUAD 2.0 ensembles de données de performance pour effectuer le test, les résultats présentés dans le tableau ci-dessous, vous pouvez voir sur les graphiques COLLE, ELECTRA a surclassé tous les autres modèles .

Mais par rapport à grand modèle T5-11b, ce dernier scoring sur COLLE encore plus élevé. Mais il convient de noter que la taille de l'ELECTRA est un tiers, et 10% de la formation informatique.

Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source

jeux de données SQUAD 2.0 Score ELECTRA-Large et d'autres modèles les plus récents

À l'heure actuelle, le code pour ELECTRA pré-formation et peaufiner la tâche en aval a été libéré, les tâches de soutien actuelles comprennent: la classification des textes, des questions et des marqueurs de séquence.

Le code prend en charge la formation rapide du petit modèle de ELECTRA sur un GPU. Après cela, Google prévoit également de libérer le code applique une pré-formation ELECTRA-Large, ELECTRA-Base et ELECTRA-Petit de. (Modèle ELECTRA actuellement disponible en anglais, suivi sera publié dans d'autres langues)

Adresse originale:

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html 

GitHub Adresse:

https://github.com/google-research/electra 

Publié 472 articles originaux · éloge de won 757 · Vues 1,61 millions +

Je suppose que tu aimes

Origine blog.csdn.net/weixin_42137700/article/details/104930578
conseillé
Classement