Pré-formation PNL route - de la word2vec, Elmo à BERT

avant-propos

Rappelez-vous il y a longtemps champ de lecture de la compréhension de la machine, Microsoft et Ali respectivement R-Net + et SLQA que les humains sur SQUAD, Baidu avec la liste V-Net Pa dans MS MARCO et l'UEBL que les humains. Ces réseaux peuvent dire qu'un complexe qu'un, il semble que « plus de travail sur la façon de concevoir un réseau de tâches spécifiques » est devenu un champ de recherche politiquement correct de la PNL. Dans ce sens, peu importe word2vec Ye Hao, gant Ye Hao, fasttext ou autre, ne peut agir comme cerise sur le gâteau. Dire une bonne étude de la migration, il pré-formation? En PNL, il ne semble pas toujours être le protagoniste.

Lorsque petite soirée à écrire cet article un peu honte, se livrer à une migration représente pendant un certain temps, bien que le sentiment très tôt que l'intuition devrait être la question fondamentale de la PNL, mais n'a pas fait certains de mes propres résultats de satisfaction jusqu'à ce que quelques-uns BERT avant le jour, juste le sentiment limite de la pauvreté mon imagination ╮ (¯ ▽ ¯ « ») ╭ (barré), il se sentait trop étroite un point de mise au point.

Chaque personne a une compréhension différente de BERT, cet article va essayer de Elmo word2vec du point de vue BERT parler. Le récapituler brièvement ci-dessous word2vec et Elmo en substance, été très complète compréhension des petits partenaires pour déposer rapidement jusqu'à BERT amis chapitres.

word2vec

Il a été assez ennuyés quelques clichés et les phrases d'écriture et plus encore, en 2013 un word2vec de Google, que la PNL champs partout, comme un temps sans formation sur les vecteurs avant terme sont gênés d'écrire une thèse. Et qu'est-ce word2vec est-il?

modèle

 

 

v2-fd235ed39f1b0c3ce83f4d830a49fad1_b.jpg

 

De toute évidence, qui est un modèle de langage « linéaire ». Étant donné que notre objectif est d'apprendre vecteur de mot, et le vecteur de mot sémantiquement pour soutenir certaines des « opérations sémantiques linéaires », tels que « L'Empereur - Impératrice = Homme - Femme » (en ignorant Wu), puis utilisez un modèle linéaire assez naturellement, course le jeûne et peut compléter la tâche, très élégante.

 

v2-0329ea23a5dee20bfd0f85bca67d7fa2_b.jpg


Une autre est l'essence de word2vec que la méthode d'accélération de jeu à la façon dont le modèle de langage est également optimisé, avec la méthode « échantillon négatif » semble ouvrir un trou dans le cerveau pour remplacer le softmax hiérarchique et des pratiques traditionnelles des RCE. Et le nom « échantillon négatif » sur grand à la fin quel est-il?

échantillon négatif

Nous savons que, pour un modèle de langage pour la formation, la couche softmax est très difficile de compter, après tout, vous voulez prédire la position actuelle qui est le mot, le nombre de catégories est équivalente à la taille du dictionnaire, donc des dizaines de dizaines de milliers de catégories, le nombre Softmax Bien sûr, il fonctionne très laborieux. Mais si notre objectif est de ne pas former un modèle de langage précis, mais seulement pour former le modèle de langue pour obtenir un sous-produit - vecteurs terme, alors en fait, il suffit d'utiliser cela impliquait un coût de calcul plus petites « sous-tâches » comme amis.

Pensez-y, vous donnez 10000 écrire des cartes numériques, vous permettant d'identifier la valeur la plus élevée, il est pas particulièrement exigeante? Mais si l'intérieur de l'avance maximale dehors, avec cinq cartes choisies au hasard confondaient, vous permettent de choisir la valeur la plus élevée, il est difficile de tenir une bougie?

échantillonnage négatif est cette idée qui ne fait pas directement le modèle le plus susceptible de trouver un mot entier du vocabulaire, mais le mot directement donné (c.-à-exemples positifs) et le mot de bruit quelques échantillonnage aléatoire (par exemple, l'échantillonnage sur les cas négatifs) tant que le modèle à partir de là pour trouver le mot juste pour compléter la cible est considérée comme amis. L'idée fonction objective correspondante qui est la suivante:

 

 

v2-c39ac80ebce05d2614f61af3de51c220_b.jpg

 

Voici v '{} w_Oun exemple positif, v '{} w_isont choisi au hasard à partir d'un exemple négatif (les k échantillons), \ sigmaest une fonction sigmoïde. Ensuite , à savoir pour maximiser les chances de cas positifs, ce qui réduit la probabilité d'exemples négatifs.

L'application de cette pensée négative a été échantillonné avec succès dans le modèle BERT, mais de la taille de mot dans une phrase. Ne vous inquiétez pas, regardez lentement ~

contexte char-niveau

Bien que 2015 et 2017 ont aussi beaucoup de travail à essayer de démarrer à partir du char-niveau, une autre façon de se débarrasser des règles des vecteurs de formation avant terme de jeu, cependant mesuré de courte durée, bientôt une haine [8] [9]. Cependant, il est également au courant du texte au niveau char contient également une description de niveau de mot de texte du mode difficile, de sorte que vous pouvez apprendre d'une part il y avait le niveau char dispose de vecteurs de mots FastText [5], une autre par le début des aspects peu profonds CNN, HIghwayNet, RNN et un autre réseau a introduit un texte de niveau de caractère dans une mission supervisée dit.

Cependant, jusqu'à présent, des vecteurs de mots sont sans contexte. En d' autres termes, le même mot dans des contextes différents toujours le même vecteur de mot, il est clair que le manque de capacités qui conduit à mot de modèle vectoriel WSD (WSD). Ainsi, les gens afin de rendre vecteur de mot devient contextuelle, basée sur le mot a commencé à faire la séquence de vecteur de codage dans des tâches spécifiques en aval.

Bien sûr, la méthode la plus de codage commun est d'utiliser le réseau système RNN, en plus de l'utilisation réussie de CNN profonde au travail de codage (telles que la classification texte [6], la traduction automatique [7], la compréhension à la lecture de la machine [4]), Cependant! Et! Google dit, CNN a également Tai Su, nous utilisons un réseau entièrement connecté! (Sur Crossed) auto-attention! Il y aura donc personnalisé pour la profondeur PNL modèle Transformer [11], transformateur est présenté sur les tâches de traduction automatique, comme la récupération du dialogue, mais dans d'autres domaines [3] a également joué un grand pouvoir.

Toutefois, étant donné la nécessité de trouver diverses tâches de la PNL sont le codage de base, alors pourquoi ne pas laisser le début du vecteur de mot a le pouvoir contextuelle? Donc, avec Elmo [2].

Elmo

Bien sûr, le fait Elmo est pas la première tentative de produire un modèle de texte contextuel vecteur, mais bien vous laisser passer une bonne raison d'abandonner le modèle word2vec (sourire manuel), après tout, le point de la vitesse du sacrifice de raisonnement en échange d'épices tant d'amélioration de la performance dans la plupart des cas, la valeur ah ~ Elmo sur la couche modèle est un bi-LSTM empilés (à proprement parler empilés LSTM deux sens unique formé), donc bien sûr il y a une bonne capacité d'encodage. Alors que ses implémentations de sources prennent également en charge l'utilisation de la route Net ou CNN en outre introduit un codage de niveau char. Afin de maximiser la formation, alors naturellement le modèle de langage standard fonction de vraisemblance, qui est,

 

v2-e254688e1817d6c21ccef33db2659f86_b.jpg

Mais bien sûr, ce n'est pas le point fort de modèle de couche Elmo, mais plutôt indirectement par des expériences décrites dans le multicouche RNN, les différentes couches ont réellement appris des différences caractéristiques, ce qui nécessite l'achèvement du Elmo de pré-formés et migrer dans la PNL en aval lorsque la tâche, nous aurions dû mettre en place un paramètre de formation pour la couche de vecteur de mot d'origine et la couche cachée de chaque couche RNN, après ces paramètres sont normalisés en multipliant la couche softmax à la couche sur leur pondération respective et la somme qu'il a joué un rôle , puis sur les vecteurs terme « somme pondérée » obtenus, puis le mot entier au vecteur par un paramètre de mise à l'échelle pour mieux adapter une tâche en aval.

ps: En fait, ce dernier paramètre est très important, comme word2vec, en terme général cbow différences de variance de vecteur et d'apprendre sg de la relativement grande, la variance avec la mission de suivi pour le match de mot de couche aval de la variance de vecteur converge plus rapidement plus susceptibles d'avoir de meilleures performances

mathématiquement,

 

v2-7653bedb63551e7508862a4503dc8d17_b.jpg

Lorsque L = 2 est défini dans le document ELMO, j = 0 au nom des couches de vecteur de mot d' origine, j = 1 est la première couche cachée LSTM, j = 2 est la deuxième couche cachée. s_j ^ {tâche}Le résultat d'un des paramètres suivants sont de retour softmax (à dire s_0 + s_1 + ... + S_L = 1).

Grâce à cette stratégie de migration, il existe une demande pour ces tâches WSD plus facilement en train à la deuxième couche cachée un beaucoup de poids, tandis que les parties de la parole, la syntaxe a besoin d'un paramètres Might de mission claire pour la première couche cachée l'apprentissage de la valeur relativement grande (résultats expérimentaux). Bref, cela obtenir un plus riche mot caractéristique de vecteur « peut être la tâche en aval sur mesure », l'effet est beaucoup mieux que word2vec pas surprenant.

Mais cela étant dit, l'objectif de ELMO apprenait que le contexte sensible, vecteur de mot plus puissant, le but est toujours de fournir une base solide pour les tâches en aval, mais veulent sens roi régicide .

Et nous savons que, seul le texte est l'encodage complet et puissant (par exemple obtenir des caractéristiques très précises de chaque mot bit riche) est loin d'être suffisant pour couvrir toutes les tâches de la PNL. En AQ, la compréhension de la lecture de la machine (MRC), le raisonnement du langage naturel (NLI), le dialogue et d'autres tâches, il y a beaucoup des modèles plus complexes doivent capturer, tels que la relation entre les phrases. À cette fin, la tâche en aval dans le réseau ajoutera une variété d'attention artistique (voir NLI, MRC, Chatbot dans leur SOTA).

Avec le mode de capture nécessite plus magique, la tâche des chercheurs en aval pour chaque mesure à une grande variété de structure de réseau, conduisant au même modèle, un peu d'une tâche de changement et suspendu, même dans le cas de la même tâche un autre changement dans la distribution de l'ensemble de données sera une perte de performance significative se produit, il est manifestement incompatible avec la langue du comportement humain Eh oui, vous savez la capacité de généralisation humaine est très forte, ce qui indique que peut-être maintenant le chemin de développement de la PNL est erroné , en particulier sous la direction de SQUAD et épuiser toutes l'astuce et de la structure de fantaisie au classement de la brosse, la signification réelle de la PNL pour être?

Il semble tirer loin, mais heureusement, cette route a finalement été plus arrêt partiel d'un modèle, qui est, il y a quelques jours Google a publié de Transformers Trou traversant Représentations codeur bi - directionnel (BERT) [1] .

BERT

La plus grande importance de ce document ne tient pas à ce que le modèle, ni comment cette formation, mais il présente un ensemble de nouvelles règles du jeu.

Comme l'a dit avant, la structure complexe du modèle à la profondeur de personnalisation pour chaque tâche généralisation mauvaise PNL est en fait très imprudent d'aller dans la mauvaise direction. Depuis Elmo par rapport word2vec ont une telle augmentation, ce qui montre le potentiel du modèle de pré-formation est beaucoup plus que fournir une des tâches en aval de vecteur de mot précis , donc peut - on diriger un modèle de niveau pré-formation Keel? Si elle a été complètement décrit dans lequel un niveau de caractère, au niveau des mots, le niveau de la phrase dispose relation même entre les phrases, puis dans différentes tâches de la PNL, allez à personnaliser une tâche couche de sortie extrêmement léger (comme une seule couche MLP) très bien, après tout, ont déjà fait la chose du modèle squelette.

Le BERT a fait exactement cette chose, ou qu'il est vraiment cette chose faite, comme un modèle de niveau de quille général facilement contester la profondeur du modèle de personnalisation sur la mission 11. . .

Alors, comment cela se fait-il?

codage bidirectionnel profonde

Tout d' abord, il a souligné que les vecteurs de mots d'apprentissage sensibles au contexte, le précédent modèle de pré-formation ne suffit pas! Bien que la mission de supervision en aval codant façon est déjà très complète des cloches et de sifflets, et une profondeur de deux voies tâches de codage de base deviennent standard sur de nombreux aval complexes (comme la MRC, Dialogue) . Mais dans le modèle de pré-formation, le modèle le plus avancé précédent est uniquement basée sur le modèle traditionnel de la langue à faire, mais le modèle de langage traditionnel est à sens unique (déjà défini mathématiquement) , qui est,

p (s) = p (w0) \ cdot p (w1 | w0) \ cdot p (w2 | w1, w0) \ cdot p (w3 | w2, w1, w0) ... p (WN | contexte)

Et souvent très peu profonde (Imaginez le train de pile LSTM à trois niveaux ne bougeait pas, obtenir sur les différents trick), tels que Elmo.

En outre, bien que Elmo deux sens RNN n'encode utile, mais RNN les deux sens est en fait une formation séparée, mais dans la dernière couche la perte fait une simple addition. Cela conduit à des mots dans chaque direction, dans le temps de l'encodage est toujours le mot ne pas voir l'autre côté de celui-ci. Et apparemment une sémantique de phrases de mots aussi dépendra de sa gauche et à droite de certains mots juste ne décrivent pas le codage est clair à partir d'une seule direction.

Alors, pourquoi ne pas vrai missions de codage bi-directionnel de surveillance en aval qui?

La raison pour laquelle je pensais qu'il était clair, après tout, le modèle de langage traditionnel pour prédire le mot suivant en fonction de l'objectif de formation, mais si vous faites le codage bi-directionnel, alors, qui ne représente pas le mot que vous voulez predict've bien vu ╮ (¯ ▽ ¯ " « ) ╭ ces prédictions ne doute pas de sens. Ainsi, BERT propose l'utilisation d'une nouvelle mission de former le genre de tâches de surveillance peut modèle d'encodage vraiment bidirectionnel, cette tâche est appelée Modèle Langue Masked (LM Masqué).

Masked LM

Comme son nom l'indique, Masked LM est-à-dire, nous ne sommes pas comme le LM traditionnel est apparu comme un mot donné, pour prédire le mot suivant, mais directement à la partie de la phrase entière de mots (sélection aléatoire) couvre (rendre masqué), ce modèle ne pas que vous pouvez être assuré d'un codage bidirectionnel Eh bien, alors vous pouvez être assuré que ces modèles de couverture pour prédire ce que le mot est. En fait, le début de cette tâche est appelée test de closure (traduit approximativement par « test de closure »).

Cela conduit évidemment à des problèmes mineurs. Bien que cela puisse être assuré le codage bidirectionnel, mais cette fois dans le codage de ces marqueurs peut également couvrir le codage dans le ╮ (¯ ▽ ¯ « ») ╭ qui marque masque tâche en aval, il n'existe pas. . . Comment faire? À cet égard, afin de maximiser le modèle d'impact accordé à ignorer ces marqueurs, les auteurs indiquent le modèle par le biais de « Le bruit est un bruit peu fiable les ignorer !!! », est couvert pour un mot:

  • Avec 80% de probabilité « [masque] » tag est remplacé
  • Avec 10% de probabilité d'un mot à la place de l'échantillonnage aléatoire
  • 10% de chances de ne pas remplacer (mais pas remplacer, mais encore de prédire le Kazakhstan)

Encoder

Dans le choix du codeur, les auteurs n'ont pas utilisé la mauvaise rue bi-LSTM, mais l'utilisation d'un plus profond peut faire mieux parallélisme encodeur Transformer à faire. Ces mots chaque bits de mot peuvent ignorer chaque phrases de mots directement à la direction et la distance a eu l'occasion de venir dans le codage. D'autre part, je me sens subjective plus facile transformateur par rapport à LSTM des effets de la marque de masque, après tout, le processus est auto-attention complètement peut marquer le masque ciblé affaiblir le poids du match, mais la porte d'entrée LSTM est de savoir comment traiter les marques de masque il ne serait pas savoir.

Attendez, petite soirée avant que l'article a également dit, apparemment pas directement des informations de position du codeur Transformer est perdu bien? Y at-il, comme transformateur de papiers originaux que les gens se livrent à un péché horrible, cos position de codage fonction? Et le bois, l'auteur est très simple et brut directement pour former ici une position intégration ╮ (¯ ▽ ¯ « ») ╭ ici pour dire, par exemple, je coupe à la longueur de la peine de 50 ans, nous avons 50 emplacements, donc caractérisé il y a 50 positions de mot, à savoir la position de la position 0 à 49. . . Puis mot mot de vecteur à chaque emplacement une initialisation aléatoire, puis aller avec la formation dont ils (veulent dire que cette miauler spéciale peut aussi fonctionner? Trop simple et brut, droit ...). En outre, le mode enrobage de position de liaison et l'incorporation de mot, BERT a été ajouté directement sélectionnés.

Enfin, en profondeur, la version finale du BERT codeur complètement frénétiques bloc superposé d'attention à plusieurs têtes 24 couche (vous connaissez le dialogue dans le modèle SOTA DAM a également passé cinq couches ...). . . Et chaque bloc contient 16 robinets, des unités cachées 1024 ╮ (¯ ▽ ¯ « ») ╭ affiches ici: l'argent est tout ce dont vous avez besoin (barré)

des phrases et des phrases d'apprentissage représentent la relation

Comme l'a dit avant, dans de nombreuses tâches, que par le codage ne suffit pas pour accomplir la tâche (ce qui est seulement appris un tas de fonctionnalités de niveau jeton), vous avez également besoin de saisir un certain modèle niveau de la phrase, pour compléter SLI, QA, le dialogue et d'autres besoins phrase dit que la tâche d'interagir avec le match entre les phrases. À cet égard, le BERT et l'introduction d'une autre tâche extrêmement léger mais extrêmement important, pour essayer de mettre ce modèle à apprendre.

Phrase échantillons négatifs

Rappelez-vous le soir devant une petite section word2vec dit, l'essence d'une word2vec est l'introduction d'une tâche élégante d'échantillonnage négatif pour apprendre le vecteur de mot (représentation au niveau des mots) bien. Donc, si nous mettons ce processus d'échantillonnage négatif généralise à un niveau de la phrase? Ceci est la clé de l'apprentissage BERT représentation au niveau de la phrase de celui-ci.

BERT ici avec approche similaire word2vec, mais la construction est une des tâches de classification au niveau de la phrase. - À -dire, étant donné une première phrase ( ce qui correspond à un contexte donné de word2vec), qui est la phrase suivante cas positifs ( ce qui correspond au mot correct dans word2vec), échantillonnée au hasard une phrase comme un exemple négatif (correspondant à word2vec d'échantillonnage aléatoire s), puis faire les deux phrases à niveau de classification ( par exemple, détermine la peine actuelle est une phrase ou un bruit). Grâce à ce simple niveau de la phrase tâche négative de l' échantillon, BERT peut apprendre mot word2vec pour qu'il soit aussi facile d'apprendre la représentation de la phrase.

représentation de la peine

Et ainsi de suite, dit plus tôt si longtemps, n'ont pas dit comment la phrase a exprimé. . .

BERT ici n'a pas comme les missions de surveillance en aval comme pratique courante, et a présenté un pool global de comme sur la base de l'encodage, il est d'abord dans chaque séquence (pour la mission des phrases est de réunir deux phrases, pour d'autres tâches est une phrase) précédée d'un jeton spécial, appelé [CLS], la figure.

 

v2-8895e378c0c5ab199cf6fe2023d18486_b.jpg

 

ps: où [sep] est un séparateur entre les phrases, le soutien exprimé BERT phrase pour l'apprentissage, ici [SEP] est une période afin de distinguer le point de coupe.

Ensuite, laissez l'encodeur pour le codage de profondeur [CLS], codant pour la profondeur de la couche cachée est la plus haute phrase entière / phrase pour le représenter. À première vue, cette approche un peu difficile à comprendre, mais ne pas oublier, Transformer peut ignorer l'espace et la distance du codage de l'information globale dans chaque position, et [CLS] comme une phrase / phrase est une représentation directe de la couche de sortie avec le classificateur connexions, et donc comme un « point de contrôle » sur le chemin de propagation arrière gradient, bien sûr, nous allons essayer d'apprendre à classer les associés Fonctionnnalités supérieur amis.

De plus, afin de rendre le modèle doit pouvoir distinguer chaque mot sont à l'intérieur « a laissé la phrase » ou « la bonne phrase, » les auteurs ici introduisent le concept de « segment intégration » pour distinguer les phrases. Pour la peine pour, sur l'utilisation de l'intégration A et B pour représenter l'intégration de la peine de peine à gauche et à droite, et pour la peine, l'intégration a seulment amis. L'intégration A et B ont également formé avec le modèle.

ps: cette approche se sent comme position de l'intégration simple et brut, il est très difficile de comprendre pourquoi le BERT utilisé sur les « paires question de Quora » Ce réseau est théoriquement nécessaire pour maintenir la symétrie de la tâche encore capable de travailler, des sentiments mitigés

 

v2-26473e6284abfeca8e62120ab707269f_b.jpg

Par conséquent, le BERT finale, chaque jeton est représenté par un mot jeton vecteur enrobage jeton d'origine, la position enrobage et le segment mentionné précédemment ici enrobage combiner de façon additive trois parties, comme indiqué:

 

 

v2-0571d8d12edc3950a5ce75a28591b228_b.jpg

 

Interface simple à la tâche en aval excessive

BERT ce modèle reflète vraiment le modèle de niveau de la quille à la place du vecteur de mot est sa tâche à chaque conception d'interface en aval, ou plus de style occidental d'un autre mot appelé stratégie de migration.
Tout d' abord, puisque la phrase supérieure et la peine de représentation ont été, puis bien sûr pour les tâches de classification texte et tâche texte correspondant (match de texte est en fait une tâche de classification de texte, mais pour saisir du texte), la seule nécessité d'obtenir le elle représente ( à savoir, les sorties du codeur de couche supérieure [CLS] lexèmes) avec une couche MLP comme ah ~

 

v2-9cab8eaac338f3849181c7a676e20ebb_b.jpg


Étant donné que le texte est la profondeur de codage bi-directionnel, puis faire l'étiquetage de séquence de tâches seulement besoin d'ajouter la couche de sortie softmax comme elle, ne sont même pas CRF ah ~

 

v2-ad0cc8bf6ebac4c22e47919410a03f15_b.jpg


Laissez petit plus de bois soir a pensé, les tâches de portée telles que amovible sur SQUAD, la profondeur de codage attention de profondeur et peut-être même sauver une virée en osait même directement le pointeur sur la couche de sortie de la perte nette? DrQA aussi directe que ludique avec deux début de section de sortie du classificateur linéaire et à la fin, respectivement? Pas grand chose à dire, était agenouillé m (_ _) m

 

 

v2-a5f4d03c115b1df5158ce9a16bcfffe3_b.jpg

 

Enfin, regardez les résultats des tests

 

v2-4a1f394c5124a8293bcd4e32c2154641_b.jpg

 

v2-ffaf979580ce0e2a478b1c36ab0722a9_b.jpg

 

v2-9077b902afaa4581a345602c1fc43ad3_b.jpg

Ah, c'est Google.

Ce papier une petite soirée très heureux, parce que de nombreuses idées précédentes ne doivent pas faire les expériences, comme il a été pressé BERT mort (. ︿.) Classification, étiquetage et de migration des tâches peuvent commencer à partir de zéro, SQUAD le plan d'étage bâtiment peut être arrêté, BERT merci n'a pas couru les tâches de génération, ce qui apporte un peu d'imagination. Ah, les larmes manuel sourire.

 

Plus belle attention de bienvenue à petit article veille du numéro d'abonnement micro-canal [de vendre Meng Yao Xi petite maison] Oh (ω · <) ★

 

références

[1] 2018 | BERT- pré-formation des transformateurs pour la compréhension profonde Bidirectionnel langue
[2] 2018NAACL | Représentations de mot profonde contextualisés
[3] 2018 ACL | MULTITOUR Sélection de réponse pour chatbots avec réseau profond Attention assorti
[4] 2018ICLR | Rapide et précis en combinant Compréhension auto-attention et Convolution
[5] 2017TACL | Enrichir mot vecteurs avec sous - mot d' information
[6] 2017ACL | Pyramide profonde convolutifs Réseaux de neurones pour Catégorisation de texte
[7] 2017 | Séquence convolutionnel à l' apprentissage des séquences
[8] 2017 | Do convolutifs Les réseaux doivent être profonds pour texte classification?
[9] 2016 | Convolutionnel Neural Networks pour Catégorisation Text / Shallow niveau Mot profond par rapport à Caractère niveau
[10] 2013NIPS | Distributed représentations de mots-et-phrases-et-leur-compositionalité

 

Publié 33 articles originaux · louanges gagnées 0 · Vues 3285

Je suppose que tu aimes

Origine blog.csdn.net/xixiaoyaoww/article/details/104553474
conseillé
Classement