ELECTRA modèle de pré-formation chinoise de l'open source, 110 paramètres, performances comparables BERT

Remerciez se référer à la -http originale: //bjbsair.com/2020-03-27/tech-info/7050/
en Novembre l' année dernière, la PNL Grand Dieu Manning commun Google ne ELECTRA a été libéré, rapidement populaire dans les cercles de la PNL, qui ELECTRA-petits les paramètres du modèle était seulement un dixième modèle BERT base, la performance est encore comparable à BERT, et d' autres modèles ROBERTA.

Plus récemment, Google ouvre enfin le ELECTRA, et a publié un modèle de pré-formation, faute d'un grand calcul de la force des universités et des entreprises, est tout simplement un don du ciel.

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Cependant, son modèle de pré-formation publié seulement pour les Anglais, ils ne sont pas aussi BERT que la version multi-langues. Pour les autres langues (comme le chinois) les chercheurs, il est très regrettable.

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Pour résoudre ce problème, HIT aujourd'hui IFLYTEK Joint Laboratory (NLG) ELECTRA Open source, publié la version chinoise de ELECTRA modèle de pré-formation.

1, ELECTRE

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

modèle de pré-formation ELECTRA du laboratoire de SAIL du groupe Stanford Manning et Google équipe de recherche sur le cerveau, d'abord apparu dans le top 2019 de Beijing Zhiyuan Assemblée générale. En tant que nouveau modèle de pré-formation de texte, ELECTRA idées de conception innovantes, moins de calcul de la consommation de ressources et moins de paramètres, a rapidement attiré un grand nombre d'adeptes. Surtout après la dernière Novembre 2020 IPSC réception du papier publié, il a causé tout un cercle de PNL d'agitation.

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

lien Documents:

https://openreview.net/forum?id=r1xMH1BtvB

Les documents de ce tableau peuvent expliquer tous les problèmes:

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Légende: le droit est le résultat d'une gauche élargie.

Comme indiqué plus haut, le modèle ELECTRA peut obtenir de meilleurs effets que tout autre modèle pré-formé dans une prémisse étape de formation moins. En outre, la taille du modèle, et le cas du calcul des mêmes données, sur la base MLM-ELECTRE du procédé, tel que BERT et XLNet.

Par conséquent, le procédé d'apprentissage de la langue de la formule classique ELECTRE représenté, le premier ayant un rendement plus élevé et moins les paramètres de calcul (ELECTRE-petites quantités seulement de 1/10 BERT-base).

ELECTRA en mesure d'atteindre ces bons résultats, en fonction de leur nouveau cadre pré-formé, qui comprend deux sections: Générateur et discriminante.

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

  • Générateur: Un petit MLM, une position [MASK] prédiction de mots d'origine. Générateur sera utilisé pour remplacer la partie du texte d'entrée mot faire.
  • Discriminateur: chaque mot est déterminé si la phrase d'entrée est remplacé, à savoir l'utilisation de Remplacée détection de jeton (RTD) mission de pré-formation, le BERT modèle original Language Masked substitué (MLM). Notez que cela n'utilise pas la tâche Prediction phrase suivante (PNS).

Après la fin de la phase de pré-formation, le modèle utilise uniquement un groupe de travail en aval discriminante comme réglage de fin.

En d'autres termes, les auteurs du CV GAN appliqués au domaine du traitement du langage naturel.

Il est à noter que, malgré les objectifs de formation de GAN sont similaires, mais il y a encore quelques différences importantes. Tout d'abord, si le constructeur arrive à générer le jeton correct, le jeton est considéré comme « vrai » et non « faux », de sorte que le modèle peut améliorer modérément les résultats des tâches en aval. Plus important encore, le générateur en utilisant un maximum de vraisemblance pour former, non à la discrimination séduise en formation conflictuel.

2, le modèle de pré-formation chinoise ELECTRA

À l'heure actuelle, le modèle pré-formation du modèle ELECTRA open source pré-formation en anglais seulement. Mais il y a beaucoup d'autres savants langues du monde (par exemple chinois), ils ont besoin de son modèle de pré-formation de la langue correspondante.

Toutefois, en plus du modèle de pré-formation Google BERT, et d'autres officiels ROBERTA de la version multi-langue, l'autre exemple XLNet, T5 sont pas de version multi-langue correspondante, en anglais seulement. L'une des raisons est que, par rapport à seulement ne pré-formation en anglais, corpus multilingue pré-formation nécessaire de recueillir la nécessité de déployer différents corpus de la langue de proportion, trop de problèmes correspondant. Par conséquent, la probabilité d'un grand, ELECTRA ne sera pas une version en langue chinoise ou versions de modèles pré-formation.

D'autre part, comme la communauté chinoise, nos gens sur la façon de le faire avant la formation chinoise est une meilleure compréhension de notre propre pour faire la pré-formation correspondante pourrait faire mieux que Google officiel.

Nouvelles du HIT chercheur principal laboratoire à la mouche commune, la série a fait un travail similaire avant que le directeur de recherche open-source équipe dirigée Cui Yiming, qui est basé sur le code open source pour la pré-formation, plus ensemble de données chinois pour former la version chinoise du modèle de pré-formation. Par exemple, la version chinoise du modèle de série BERT, la version chinoise XLNet et autres open source sur GitHub après une bonne réponse, beaucoup de Chinois dans les missions d'évaluation ont beaucoup d'équipes utilisent leur modèle de pré-formation de l'open source pour améliorer.

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Ouvrez adresse source: https: //github.com/ymcui/Chinese-BERT-wwm

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Ouvrez adresse source: https: //github.com/ymcui/Chinese-XLNet

Après Google open source ELECTRA, Cui Yiming, qui a lancé la version chinoise de ELECTRA à nouveau.

La formation ensemble de données, et encore avant le modèle de la série BERT de formation est conforme aux données, principalement de la grande échelle chinoise Wikipédia et texte général (web chinois ramper et le nettoyage), la portée totale jeton 5.4B. termes de vocabulaire WordPiece suit le vocabulaire d'origine Google BERT, y compris 21128 jeton.

Dans cette open source, le Cui Yiming, qui vient de sortir ELECTRA-base et ELECTRA-petits deux modèles. Selon la représentation Cui Yiming, grande version en raison des nombreux paramètres, les réglages des paramètres sur plus difficiles, de sorte que le lancement du modèle retardé en conséquence.

Il a publié deux versions de leur formation pour environ sept jours, en raison de la petite version des paramètres que la version de base de 1/10, dans la formation, Cui Yiming, qui ajuste son lot de 1024 (quatre fois de base). Des détails spécifiques et hyperparametric suit (paramètres par défaut ne sont pas mentionnés): tenue

  • ELECTRE-base: 12 couche, une couche cachée 768,12 attention de la tête, le taux d'apprentissage 2e-4, batch256, la longueur maximale de 512, l'étape de formation 1M
  • ELECTRE-small: 12 couche, une couche cachée 256,4 attention de la tête, le taux d'apprentissage 5E-4, batch1024, la longueur maximale de 512, l'étape de formation 1M

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

ELECTRA-petit seulement 46 M.

En effet, Cui Yiming, qui sera l'effet de contraste entre la version chinoise du modèle de pré-série et la formation dont ils le faisaient auparavant.

de comparaison de modèles comprenant: base / ELECTRE-small, BERT base, BERT-WWM, BERT-WWM-ext, roberta-WWM-ext, RBT3.

Contraste six tâches:

  • CMRC 2018 (Cui et al, 2019.): Lecture des fragments de texte Type d'extraction (chinois simplifié)
  • DRCD (Shao et al, 2018.): Lecture des fragments de texte Type d'extraction (chinois)
  • XNLI (Conneau et al, 2018.): inférence de langage naturel (trois catégories)
  • ChnSentiCorp: analyse de sentiment (binaire)
  • LCQMC (Liu et al, 2018.): phrases correspondant (binaire)
  • BQ Corpus (Chen et al, 2018.): Les phrases correspondant à (binaire)

tâche en aval de réglage fin, modèle de base taux ELECTRA-petite / apprentissage du papier d'origine défini par défaut 3e-4 et 1E-4. Il est à noter que, si aucun paramètre de réglage de fin et de réglage fin pour toutes les tâches. Afin d'assurer la fiabilité des résultats, pour le même modèle, ils utilisent différentes formations de semences au hasard 10 fois, moyenne et maximale de rapports sur le rendement modèle (valeur moyenne entre parenthèses).

Les résultats sont les suivants:

compréhension de lecture chinois simplifié: CMRC 2018 (indicateurs d'évaluation: EM / F1)

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Lecture traditionnelle chinoise Comprehension: DRCD (indicateurs d'évaluation: EM / F1)

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

inférence de langage naturel: XNLI (indicateurs d'évaluation: Précision)

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Sentiment Analysis: ChnSentiCorp (indicateurs d'évaluation: Précision)

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Classification de la phrase: LCQMC (indicateurs d'évaluation: Précision)

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Classification de la phrase: BQ Corpus (Indicateurs de l'évaluation: Précision)

ELECTRA modèle de pré-formation chinoise de l'open source, seulement 1/10 de la quantité de paramètres, la performance est encore comparable BERT

Comme on peut le voir les résultats ci-dessus, pour le modèle ELECTRA-petit, l'effet sur la plupart des tâches beaucoup plus de trois couches d'effet ROBERTA (RBT3), ou même à proximité de la BERT base d'effet, et dans la quantité de paramètres que le modèle BERT base 1/10. Pour les modèles à base ELECTRA, sur la plupart des tâches que même effet de base BERT-WWM-roberta poste.

Son utilisation spécifique, vous pouvez consulter le projet Github:

https://github.com/ymcui/Chinese-ELECTRA

Les articles originaux publiés 0 · louanges gagnées 0 · Vues 269

Je suppose que tu aimes

Origine blog.csdn.net/zxjoke/article/details/105139843
conseillé
Classement