Victoire BERT! outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

13/03/2020 12:37:59

Treize à partir du bas de la non-Temple en retrait des
rapports qubit | Numéro public QbitAI

Le modèle de pré-formation PNL, vous méritez d'avoir.

Il est appelé ELECTRA , de l'IA Google, n'a pas seulement l'avantage de BERT, l'efficacité est plus élevée que.

Victoire BERT!  outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

 

ELECTRA est une nouvelle méthode de pré-formation, il est possible d'apprendre efficacement comment collecter des phrases de mots précis, qui est, nous disons habituellement que le remplacement du jeton.

Quelle est l'efficacité?

Et seulement ROBERTA un quart du montant de XLNet de calcul, seront en mesure d'atteindre leur performance sur COLLE. Et il a fait de nouvelles percées dans la performance SQUAD.

Cela signifie que « à petite échelle, a aussi un rôle important » dans le GPU unique sur les besoins de formation des quatre jours seulement, encore plus que la précision du modèle OpenAI de TPG.

ELECTRA a été utilisé comme version du modèle open source tensorflow comprend un certain nombre de pré-formation et facile à utiliser le modèle de représentation linguistique.

Laissez le plus rapide préformation

modèle de formation pré-existante peut être divisée en deux grandes catégories: modèle de langage  (langue modèle, LM) et modèle de langage de masque (Masked modèle Langue, MLM).

GPT est une sorte d'exemple, LM, qui traite le texte d'entrée de gauche à droite, selon un contexte donné pour prédire le mot suivant.

Et comme BERT, et roberta ALBERT appartiennent à MLM, ils peuvent prévoir une petite quantité de mots dans l'entrée masquée. MLM a un avantage dans les deux sens, ils peuvent « voir » les deux côtés du texte symbolique à prédire.

MLM mais aussi a ses inconvénients: chacun des jeton d'entrée et le pronostic, ces modèles prédisent un sous-ensemble très faible (masqué 15%), ce qui réduit la quantité d'information obtenue à partir de chaque phrase.

Victoire BERT!  outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

 

Le ELECTRA utilise une nouvelle mission de pré-formation, appelée jeton REMPLACÉ de détection  (RTD).

Il est comme la formation MLM comme un modèle à deux voies, comme LM que l'apprentissage toute la position d'entrée.

Inspiré par la génération d'affrontement réseau (GAN) est, ELECTRE faire la distinction entre « vrai » et « faux » les données d'entrée selon le modèle de formation.

méthode d'entrée BERT de destruction est d'utiliser « [MASQUE] » de remplacement jeton, mais cette méthode n'est pas correct (mais un peu crédible) en remplaçant une entrée pseudo-jeton en utilisant le jeton.

Par exemple, sur la figure. « Cuit » peut être substitué « mangé ».

Victoire BERT!  outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

 

Génération d'une première prédiction en utilisant le masque un jeton de phrase, jeton à l'aide de la phrase suivante de remplacement prévue tag [le masque], puis utiliser un jeton pour chaque phrase est déterminée à établir une distinction entre l'original ou le remplacement.

Victoire BERT!  outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

 

Après la pré-formation, la tâche est déterminée pour aval.

Victoire BERT, SQUAD 2.0 a le mieux performé

ELECTRA avec d'autres comparaison du modèle PNL avancé peut être trouvé:

Sous le même pour calculer le budget, il est une grande amélioration par rapport aux méthodes précédentes, dans le cas de moins de 25% du montant calculé de la performance et roberta XLNet tout à fait.

Victoire BERT!  outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

 

Pour améliorer encore l'efficacité, les chercheurs ont également essayé un petit modèle ELECTRA, il peut être formé sur un seul GPU 4 jours.

Bien qu'il n'y ait pas de modèle à grande échelle de précision nécessaire pour obtenir le TPU pour former beaucoup, mais encore se comportent ELECTRA de premier plan, plus encore que le TPG (seulement 1/30 de la quantité de calcul nécessaire).

Enfin, afin de voir si la mise en œuvre à grande échelle, les chercheurs ont utilisé plus de calcul (ROBERTA environ la même quantité, environ 10% de T5), pour former un grand ELECTRA.

Les résultats ont montré que, sur le plateau de test SQUAD 2.0 pour obtenir les meilleurs résultats.

Victoire BERT!  outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

 

En outre, dans la colle, il a dépassé plus de roberta, XLNet et ALBERT.

Le code source ouvert a été

En fait, l'étude déjà publiée au début de Septembre l'année dernière, quand. Mais ce qui est excitant est que, ces derniers jours, ouvrir enfin le code!

Victoire BERT!  outil préformation PNL: un petit modèle a aussi de haute précision, GPU unique sera en mesure de former

 

ELECTRA est pré-mission principalement la formation et le code aval peaufinage. tâches actuellement pris en charge comprennent la catégorisation de textes, des réponses aux questions et marqueurs de séquence.

Le code source ouvert pour soutenir la formation rapide d'un petit modèle ELECTRA sur un GPU.

modèle ELECTRA est actuellement disponible en anglais, mais les chercheurs ont également exprimé l'espoir que l'avenir peut publier le modèle de pré-formation multilingue.

portail

Google AI blog:
https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

GitHub Adresse:
https://github.com/google-research/electra

Documents Adresse:
https://openreview.net/pdf?id=r1xMH1BtvB

- FIN -

Publié 472 articles originaux · éloge de won 757 · Vues 1,61 millions +

Je suppose que tu aimes

Origine blog.csdn.net/weixin_42137700/article/details/104855439
conseillé
Classement