TRANSFORMATEUR-TRANSDUCTEUR: RECONNAISSANCE DE LA PAROLE DE BOUT EN BOUT AVEC AUTO-ATTENTION

TRANSFORMATEUR-TRANSDUCTEUR: RECONNAISSANCE DE LA PAROLE DE BOUT EN BOUT AVEC AUTO-ATTENTION

1. Résumé

(1) Utilisez la convolution causale de VGGNet combinée aux informations de position pour sous-échantillonner l'entrée afin de garantir l'efficacité de l'inférence. (2) Utilisez un mécanisme d'auto-attention tronqué pour assurer le traitement de streaming transormer et réduire la complexité de calcul. Obtention d'un taux d'erreur de mot de 6,37% sur LibriSPeech test-clean et de 15,3% sur test other.La complexité de calcul est O (T), et T est la longueur de la séquence d'entrée.

2. Structure du modèle

  • Modélisation du contexte utilisant la convolution causale
    Insérez la description de l'image ici
    Pour la convolution causale, l'emplacement de la couverture de convolution du noyau NxK est X (i - N + 1, j - k - 1 2) X (i-N + 1, j- \ frac { k-1} 2)X ( je-N+1 ,j-2k - 1) àX (i, j + k - 1 2) X (i, j + \ frac {k-1} 2)X ( je ,j+2k - 1) (Dans le code, seul le remplissage est effectué au début de la séquence), ce qui évite de voir le contenu précédent lors de la convolution.

  • Insérez la description de l'image ici
    Les défauts de l' auto-attention tronquée auto-attention illimitée: vous devez connaître l'entrée entière pour prédire l'étiquette et ne pouvez pas traiter les données en continu; la complexité de calcul est O (T ^ 2).
    Auto-attention tronquée: la sortie ht ne dépend que de (xt - L .. . xt + R) (x_ {tL} ... x_ {t + R})( xt - L. . . Xt + R) , La complexité de calcul devient O (T) mais certains effets de modèle sont éliminés.

3. Résultats expérimentaux

Configuration expérimentale: codeur (1) BLSTM 4x640, (2) LSTM 5x1024: (3) de transformateur 12x: 2VGGNets, des couches de codeur de transformateur 12 couche
Insérez la description de l'image ici
BLSTM comme un codeur est plus forte que LSTM, VGG transfomer est meilleur que BLSTM, mais les deux ne sont pas en streaming Méthode de calcul de formule. Du côté du décodeur, LSTM fonctionne mieux que Transformer et a une efficacité de calcul plus élevée.
Insérez la description de l'image ici
Une expérience comparative pour la longueur d'attention tronquée. Parmi eux, la longueur de R a un impact plus important sur la précision de la reconnaissance. Pour L, lorsque la combinaison de (L, R) = (16,4) est prise, elle a dépassé la ligne de base de LSTM / BLSTM. Lorsque (L, R) = (32,4), seulement 4,7% de la reconnaissance est perdue La précision permet d'obtenir une complexité O (T) streamable et de calcul.

Je suppose que tu aimes

Origine blog.csdn.net/pitaojun/article/details/108310203
conseillé
Classement