[Lecture d'articles] Historique du développement de l'amélioration de la recherche et résumé des articles connexes

Préface

  • Je n'ai pas publié de blog depuis longtemps. Aujourd'hui, je suis tombé sur le résumé précédent de l'amélioration de la recherche et je l'ai trouvé plus significatif.
  • Remarque : Knn-LM-> REALM-> DPR-> RAG-> FID-> COG-> -> GenRead-> REPLUG->Adaptive retrieval

Knn-LM

Aperçu

  • Les LM résolvent généralement deux sous-problèmes :
    • mapper les préfixes de phrases sur des représentations de taille fixe
    • utiliser ces représentations pour prédire le mot suivant dans le texte
  • Hypothèse : le problème d'apprentissage de la représentation peut être plus facile que le problème de prédiction (utiliser la représentation pour aider à prédire le mot suivant)
  • Présentez kNN-LM, une approche qui étend un LM pré-entraîné en interpolant linéairement sa distribution de mots suivants avec un modèle k-voisins les plus proches (kNN).

Méthode

Insérer la description de l'image ici

Banque de données : ( K , V \mathcal{K,V}K ,V ), l'ensemble de toutes les paires clé-valeur construites à partir de tous les exemples de formation dansDDD

Insérer la description de l'image ici

  • paire clé-valeur ( ki , vi ) (k_i, v_i)( kje,vje) , où la cléki k_ikjeest la représentation vectorielle du contexte f ( ci ) f (c_i)f ( cje) et la valeurvi v_ivjeest le mot cible wi w_iwje

Inférence : Interpoler la distribution du voisin le plus proche pk NN p_{kNN}pkNN _avec la distribution du modèle p LM p_{LM}pLM _en utilisant un paramètre ajusté λ \lambdaλ pour produire lek NN − LM final kNN-LMkNN _Distribution L M (contexte d'entrée xxx )

Insérer la description de l'image ici

  • p LM ( y ∣ x ) p_{LM}(y|x)pLM _( y x ) : étant donné le contexte d'entréexxx le modèle génère la distribution de sortie sur les mots suivantsp LM ( y ∣ x ) p_{LM}(y|x)pLM _( y x )

  • pk NN ( y ∣ x ) p_{kNN}(y|x)pkNN _( y x ) : une distribution sur les k-voisins les plus proches

    • calculer la probabilité de chaque cible en fonction du softmax de la distance négative d ( q , ki ) d(q,k_i)( q ,kje)
    • agréger la masse de probabilité pour chaque élément de vocabulaire dans toutes ses occurrences dans les cibles récupérées

    Insérer la description de l'image ici

Résultats

Performances surWIKITEXT-03

Insérer la description de l'image ici

  • performances surBOOKS

    Insérer la description de l'image ici


La récupération des voisins les plus proches à partir des données peut-elle remplacer la formation sur celles-ci ?

Insérer la description de l'image ici

  • S'entraîner WIKI-100Met récupérer WIKI-100Best préférable à s'entraîner surWIKI-3B
  • plutôt que de former des modèles de langage sur des ensembles de données de plus en plus grands, nous pouvons utiliser des ensembles de données plus petits pour apprendre des représentations et les augmenter sur kNN-LMun plus grand corpus.

Comment la quantité de données utilisée pour la récupération de kNN affecte les performances ?

Insérer la description de l'image ici

Adaptation de domaine

Insérer la description de l'image ici

  • s'entraîner WIKI-3Bet se perfectionnerBOOKS

Réglage de la recherche du voisin le plus proche

Fonction clef

Insérer la description de l'image ici

Nombre de voisins par requête (Figure 4) et paramètre d'interpolation (Figure 5)

Insérer la description de l'image ici

Analyse

Insérer la description de l'image ici

Insérer la description de l'image ici

  • les exemples kNN-LMles plus utiles contiennent généralement des modèles rares
  • nécessaire d'utiliser une représentation neuronale plutôt qu'une méthode basée sur n-gram
  • Les LM peuvent-ils se souvenir de l'ensemble de données d'entraînement à remplacer en utilisant la mémoire explicite ?
    • Les LM ont la capacité de mémoriser toutes les données d'entraînement (Figure 8) mais ne sont pas bons en généralisation

ROYAUME

Connaissances

Inconvénients des modèles linguistiques pré-entraînés

  • Il est difficile de déterminer quelles connaissances sont stockées dans le réseau et où
  • L'espace pour stocker les connaissances est limité par la taille du réseau

Limites des travaux antérieurs

  • des travaux antérieurs ont démontré l'avantage d'ajouter une étape de récupération discrète aux réseaux de neurones, maisn'a pas appliqué le cadre à la pré-formation du modèle de langageetemployés des récupérateurs non instruitsgérer des collections de documents à grande échelle
  • inspiré du framework retrieve relevant documents and extract an answer from the docset l'étend à la pré-formation des modèles de langage

Cet article propose REALMune retrieve-then-predictméthode

  • Capturer les connaissances de manière plus interprétable et modulaire
  • clé:entraîner le retriever à l'aide d'un signal basé sur les performances provenant d'un texte non supervisé

Insérer la description de l'image ici

Méthodes comparées à:

  • des modèles extrêmement volumineux qui stockent implicitement des connaissances (par exemple. T5)
  • approches qui utilisent également un outil de récupération de connaissances pour accéder à des connaissances externes, mais mettent en œuvre la récupération de manière plus heuristique

Méthode

Pour la pré-formation et le réglage fin, REALMprend une entrée x et apprend une distribution p(y | x) sur les sorties possibles y.

  • pré-formation : modélisation du langage masqué

  • réglage fin : Open-QA

  • en deux étapes :

    • récupérer : échantillon de la distribution p ( z ∣ x ) p(z|x)p ( z X )

    • prédire : p ( y ∣ z , x ) p(y|z,x)p ( y z ,x )

    • probabilité globale de générer yyoui

      Insérer la description de l'image ici

Récupérateur de connaissances

Insérer la description de l'image ici

  • implémenter les fonctions d'intégration à l'aide de transformateurs de style BERT

    Insérer la description de l'image ici

    • Insérer la description de l'image ici

Encodeur amélioré par les connaissances

Insérer la description de l'image ici

  • pré-entraînement : utiliser la perte MLM

    Insérer la description de l'image ici

    • La longueur du vecteur n’est pas fixe, pouvons-nous utiliser le produit scalaire ? Sont-ils tous normalisés par défaut ?
  • Affinement de l'Open-QA : supposez que la réponse yyy peut être trouvé sous la forme d'une séquence contiguë de jetons dans certains documentszzz

    Insérer la description de l'image ici

    • BERTSTART (s) BERT_{START(s)}BER TDÉBUT ( s ) _ _et BERTEND ( s ) BERT_{END(s)}BER TFR D ( s )désignent les vecteurs de sortie du transformateur correspondant respectivement aux jetons de début et de fin de span s

    • Si le score correct est élevé, ne devons-nous pas nous assurer que le score erroné est petit ?

    • ne pas mettre à jour E mbeddoc Embed_{doc}Intégré _ _ _doc _pour la simplicité

Exp.

Pré-formation : 8 documents candidats, deux choix de corpus :(1) Wikipédia (2)CC-News

Mise au point : considérez les 5 meilleurs candidats


Résultat

Insérer la description de l'image ici


Étude sur l'ablation

Insérer la description de l'image ici

  • Correspondance exacte : la réponse prédite est évaluée via une correspondance exacte avec n'importe quelle réponse de référence
  • Zero-shot Recall@5 : à quelle fréquence la réponse en or apparaît dans le top 5 des récupérations avant d'appliquer un réglage fin.

Étude de cas

Insérer la description de l'image ici

RPD

Aperçu

  • Il n'a donc jamais été démontré que les méthodes de récupération dense surpassent TF-IDF/BM25 pour l'assurance qualité en domaine ouvert avant ORQA.
  • deux faiblesses d'ORQA
    • La pré-formation aux TIC nécessite beaucoup de calculs et il n'est pas tout à fait clair que les phrases ordinaires soient de bons substituts aux questions dans la fonction objective.
    • l'encodeur de contexte n'est pas affiné à l'aide de paires de questions et de réponses, les représentations correspondantes pourraient être sous-optimales.

pouvons-nous former un meilleur modèle d'intégration dense en utilisant uniquement des paires de questions et de passages (ou réponses), sans pré-entraînement supplémentaire

  • se concentrer sur le développement du bon programme de formation en utilisant un nombre relativement restreint de paires de questions et de passages (uniquement pour un réglage fin)

Proposer le DPR, un cadre en deux étapes :

  • un récupérateur de contexte
  • un lecteur automatique

Méthode

Encodeurs : deux BERT indépendants

Entraînement:

  • objectif : créer un espace vectoriel tel que les paires de questions et de passages pertinents auront une distance plus petite

    • Négatifs en lot

    Insérer la description de l'image ici

Expériences

documents sources : Dump Wikipedia du 20 décembre 2018 (100 mots sous forme de passages, titre + passage)

Ensembles de données d'assurance qualité : Natural Question ; TriviaQA; WebQuestion; CuratedTREC;SQuAD v1.1

  • grand:NQ, TriviaQA, SQuAD
  • petit:TREC, WQ

Résultats

Récupération

** Insérer la description de l'image ici
**


Assurance qualité de bout en bout

Outre le récupérateur, notre système d'assurance qualité se compose d'un lecteur neuronal qui extrait une plage de réponses des passages.

  • utiliser BERTpour prédire le start_tokenet leend_token

Insérer la description de l'image ici

  • une précision plus élevée du retriever conduit généralement à de meilleurs résultats finaux d'assurance qualité

CHIFFON

Aperçu

1. Le modèle pré-entraîné a une forte capacité à stocker des connaissances, mais sa capacité à accéder et à manipuler avec précision les connaissances est encore limitée, il n'est donc pas aussi performant que l'architecture spécifique à une tâche pour les tâches à forte intensité de connaissances.

  • ne peut pas facilement étendre ou réviser sa mémoire
  • ne peut pas directement donner un aperçu de leurs prédictions
  • peut produire des « hallucinations »

2. La mémoire paramétrique avec des mémoires non paramétriques (c'est-à-dire basées sur la récupération) peuvent résoudre certains problèmes

  • Les connaissances peuvent être directement modifiées et étendues, et les connaissances accessibles peuvent être inspectées et interprétées

3. REALMet ORQAexploité cette forme (basée sur un modèle de langage masqué), mais n'a exploré que la réponse aux questions extractives en domaine ouvert

donc,Cet article étend cette méthode aux modèles seq2seq, la principale force de la PNL.

  • mémoire paramétrique : transformateur seq2seq pré-entraîné
  • mémoire non paramétrique : index vectoriel dense de Wikipédia (obtenu via un récupérateur pré-entraîné, c'est-à-dire DPR)
  • Deux formulaires sont proposés RAG-SequenceetRAG-Token

Insérer la description de l'image ici


Modèle de séquence RAG

utilise le même document récupéré pour générer la séquence complète.

Insérer la description de l'image ici

  • Chacun des documents top-k récupérés joue un certain rôle dans la génération
  • Chaque document contribue à l'ensemble de la séquence

Modèle de jeton RAG

utilisez un document latent différent pour chaque jeton cible.

  • Chaque jeton d'une sortie (séquence) peut utiliser un document différent zzz

Insérer la description de l'image ici

Récupérateur : DPR

Nous utilisons un bi-encodeur pré-entraîné de DPR pour initialiser notre récupérateur et construire l'index du document

  • Nous appelons l'index du document la mémoire non paramétrique

Générateur : BART

utiliser BART-largeetconcaténer simplement l'entrée xxx et le contenu récupérézzz

Entraînement

former conjointement les composants récupérateur et générateur sans aucune supervision directe sur le document à récupérer.

  • Utiliser un corpus de formation affiné de paires d'entrées/sorties ( xi , yi ) (x_i, y_i)( xje,ouije)
  • garder l'encodeur de document (coûteux et inutile) fixe, en ajustant uniquement l'encodeur de requêtes et le générateur

Décodage

  • RAG-Token: Généré par faisceau, la probabilité de chaque jeton est connue

    Insérer la description de l'image ici

  • RAG-Sequence: Générer une sortie yy pour chaque documenty , formant l'ensembleYYY. _ Certains documents génèrentyyy , d'autres documents ne peuvent pas être générés. Faisons ce calcul pour tous les documentsyyprobabilité de y , alors a yyLa probabilité de y peut s'écrire∑ z ∈ top − kp ( z ∣ x ) p ( y ∣ x , z ) \sum_{z\in top-k}p(z|x)p(y|x,z )z t o p kp ( z X ) p ( y X ,z ) . c'est appeléThorough Decoding

    • Mais lorsque la séquence générée est longue, YYY sera très grand et devra être calculé plusieurs fois. Pour plus d'efficacité, soitp ( y ∣ x , zi ) p(y|x,z_i)p ( y X ,zje) est mis à 0, s'il passex, zix,z_ix ,zjeyy n'est pas généréoui , ça s'appelleFast Decoding

Testez RAG sur quatre tâches à forte intensité de connaissances.

  • Toutes les expériences utilisent Wikipédia comme source de connaissances pour la récupération
  • Chaque document est divisé en morceaux de 100 mots
  • top-k, k vaut 5 ou 10

Assurance qualité en domaine ouvert

Insérer la description de l'image ici


Insérer la description de l'image ici

  • Réponse aux questions abstraites (MSMARCO)

    • RAG est meilleur que BART et proche du modèle optimal
      • Le modèle optimal utilise des passages d'or
  • Péril QG(Péril)

    • pourquoi RAG-Token est le plus performant
      • combiner le contenu de plusieurs documents
    • le composant non paramétrique aide à guider la génération, en extrayant des connaissances spécifiques stockées dans la mémoire paramétrique. (une fois le premier jeton de chaque livre généré, le document postérieur s'aplatit)

    Insérer la description de l'image ici

  • Vérification des faits (FVR3, FVR2)

    • Pour FVR3 (3 catégories), RAG n'est pas très différent, et la méthode SOTA nécessite beaucoup de conception et de formation
    • Pour FVR2 (2 catégories), RAG n'est pas très différent et la méthode SOTA utilisera des preuves en or

Insérer la description de l'image ici

FID

Connaissances

Inconvénients de la méthode précédente :

  • Les approches basées sur la récupération ont déjà été envisagées dans le contexte de réponses aux questions en domaine ouvert avec des modèles extractifs(Y compris DPRet REALM
    • Agréger et combiner les preuves de plusieurs passages n'est pas simple lors de l'utilisation de modèles extractifs

Proposer une récupération + une génération.

Méthode

Insérer la description de l'image ici

deux étapes:

  • récupération:
    • BM25/DPR
  • en lisant:
    • chaque question+passage est traité indépendamment des autres passages par l'encodeur
    • le décodeur effectue une attention particulière à la concaténation des représentations résultantes de tous les passages récupérés
      • traiter les passages indépendamment dans l'encodeur, mais conjointement dans le décodeur
    • mettre en œuvre une attention croisée sur la concaténation des représentations résultantes de tous les passages récupérés (pensée personnelle).
      • Mais j'ai regardé le code et j'ai découvert que tous les passages étaient assemblés et entrés dans le modèle lors de la génération. J'ai été très surpris.
        • Mise à jour : Oui, par le biais d'une attention croisée. L'auteur a mis à jour la partie traitement de l'encodeur. Après avoir traité chaque passage individuellement, il l'a organisé en une grande séquence et l'a montré au décodeur.Cette méthode peut dépasser dans une certaine mesure la limite de longueur d'entrée et peut être utilisée comme référence, mais je pense personnellement qu'elle ne convient qu'à l'architecture codeur-décodeur, et la quantité de calcul d'attention croisée augmentera linéairement (sans l'augmentation de attention personnelle)
  • modèle : T5

Résultats

Insérer la description de l'image ici

  • les modèles génératifs semblent bien fonctionner lorsque les preuves provenant de plusieurs passages doivent être regroupées, par rapport aux approches extractives

Insérer la description de l'image ici


Insérer la description de l'image ici

  • entraînement avec différents nombres de passages, tout en testant avec 100 passages.

DENT

Aperçu

Reformuler la génération de texte en copiant des segments de texte à partir de collections de textes existantes

  • les prédictions du prochain jeton dans les modèles de langage neuronal traditionnels sont remplacées par une série d'opérations de copier-coller.

Amélioration : apprenez dynamiquement le tableau de phrases, ajoutez, supprimez, modifiez et vérifiez le contenu, ou convertissez des phrases fixes en phrases dynamiques

Méthode

Insérer la description de l'image ici

À chaque pas de temps, une phrase appropriée est sélectionnée et ajoutée au préfixe actuel en conséquence

  • Pour un document D i D^iDje , une phrasek = D s : eik = D^i_{s:e}k=Ds : ejede longueur e − s + 1 peut être extrait, où sss eteeMarquez respectivement les positions de début et de fin de la phrase dans le document.

  • désignent toutes les expressions de la collection de texte source par P \mathcal{P}P –>{ ( k , pk ) ∣ k ∈ P } \{(k,p_k)|k \in \mathcal{P}\}{( k ,pk) ∣k _P }

    • pk = Phrase Encoder ( s , e , D i ) p_k = PhraseEncoder (s, e, D^i)pk=CODEUR DE P H R A SE ( s , _ _ _e ,Dje )

    • score de condition physique :

      Insérer la description de l'image ici

      • qi q_iqjeest la représentation du préfixe x < i x_{<i}X< je
  • pour prendre en charge les scénarios dans lesquels aucune expression appropriée n'est disponible, nous ajoutons également les intégrations de jetons indépendantes du contexte ( w , vw ) ∣ w ∈ V {(w, v_w)|w ∈ V }( w ,vw) wV dans les LM standard dans la table de phrases


Le modèle se compose de trois éléments principaux :

  1. un encodeur de préfixe qui mappe les préfixes à des représentations de taille fixe

    • utiliser l'architecture Transformer standard avec une attention causale ( GPT-2 )
    • utiliser l'état caché du dernier jeton comme représentation du préfixe qi q_iqje
  2. un encodeur de phrases dépendant du contexte qui calcule les représentations vectorielles des phrases dans la collection de texte source

    • Pour un document D = D 1 , . . . , D m D = D_1, . . . , D_mD=D1,... ,Dmde longueur m :

      • appliquez d'abord un transformateur bidirectionnel profond ( BERT-base-cased ) pour obtenir des représentations de jetons contextualisées D m × dt D^{m \times d_t}Dm × t

      • appliquer deux modèles MLP, MLP start MLP_{start}M L Pcommencer _ _ _ _et MLP fin MLP_{end}M L Pe n d, pour convertir DDD en représentations de jetons de début et de fin respectivement :

        Insérer la description de l'image ici

      • pour chaque phrase D s : e D_{s:e}Ds : e, utilisez la concaténation des vecteurs de début et de fin correspondants comme représentation de l'expression

        Insérer la description de l'image ici

  3. un ensemble d'intégrations de jetons indépendantes du contexte , similaires à celles utilisées dans les modèles de langage neuronal standard

    • pour conserver la capacité de généralisation pour composer la sortie avec des jetons autonomes
    • ajoutez les intégrations de jetons traditionnelles indépendantes du contexte V ∈ R ∣ V ∣ × d V ∈ R^{|V| \fois d}VR.V × d à notre tableau de phrases.
    • utile lorsqu'il n'y a pas de phrase appropriée dans la collection de texte source

Pourquoi la représentation générée par GPT-2 correspond-elle à la représentation générée par BERT ? Les deux sont-elles dans le même espace d'expression ?

Entraînement

un document D a été découpé en n phrases D = p 1 , . . . , pn D = p_1, . . . , p_nD=p1,... ,pn

  • la perte d'entraînement pour les prédictions de la phrase suivante ( prédiction de la phrase suivante )

    Insérer la description de l'image ici

    • P k \mathcal{P_k}P.kse compose de toutes les phrases du document source D k D^kDk
  • pour conserver la capacité de génération au niveau du jeton, nous formons également COG avec la perte autorégressive standard au niveau du jeton ( prédiction du prochain jeton )

    Insérer la description de l'image ici

La perte d'entraînement est la somme de ces deux pertes .

Résultats

Modélisation du langage standard

Insérer la description de l'image ici


Vitesse d'inférence

Insérer la description de l'image ici

  • le coût du temps d'encodage n'est pas inclus
  • atteint une efficacité d'inférence comparable à celle de la ligne de base standard du transformateur
    • la latence d'inférence de kNN-LMest beaucoup plus élevée que celle de Transformer, etCOG

Étude de cas

Insérer la description de l'image ici

Adaptation de domaine

Insérer la description de l'image ici

  • COGpermet à un modèle unique d'être spécialisé dans différents domaines, en changeant simplement la collection de texte source

Index de phrases élargi

Insérer la description de l'image ici


Idée

Levenshtein Transformer: Lorsque ce modèle est généré, les résultats générés peuvent être ajoutés, supprimés ou modifiés ( NeurIPS 2019)

Insérer la description de l'image ici

GenRead

Connaissances

ICLR 2023 : 8 8 8 10

Trois inconvénients du pipeline de récupération puis de lecture

  • les documents candidats à la récupération sont fragmentés (par exemple, 100 mots) et corrigés , de sorte que les documents récupérés peuvent contenir des informations bruitées qui n'ont aucun rapport avec la question
    • Peut être tronqué selon la sémantique et divisé en morceaux selon la sémantique
  • les représentations des questions et des documents sont généralement obtenues indépendamment dans des modèles modernes de récupération dense à deux tours, ce qui conduit à ne capturer que des interactions superficielles entre eux
    • Il peut interagir en profondeur. Par exemple, une fois la question encodée, lors de l'encodage du document, vous pouvez voir l'encodage de la question à chaque couche, et enfin calculer le score.
    • Une interaction profonde est-elle nécessaire ? Quels sont les effets superficiels et profonds ?
  • la récupération de documents sur un grand corpus nécessite que le modèle de récupération encode d'abord tous les documents candidats et stocke les représentations pour chaque document
    • Cependant, l’utilisation d’un grand modèle sans récupération sera toujours limitée par la taille du modèle, car la quantité de connaissances est liée à la quantité de paramètres et est plus difficile à expliquer.
    • La recherche générative peut-elle être utilisée pour résoudre ce problème ?

Proposer d'exploiter les LLM pour générer directement des documents contextuels pour une question donnée, deux avantages

  • les documents contextuels générés contiennent la bonne réponse plus souvent que les documents les plus récupérés

    • les grands modèles de langage génèrent des documents contextuels en effectuant une attention croisée approfondie au niveau des jetons entre toutes les questions et le contenu du document
  • notre approche surpasse considérablement la génération directe de réponses à partir de grands modèles de langage, même si elle n'intègre aucune nouvelle information externe

    • principalement parce que la tâche de génération de contextes au niveau du document est proche de l'objectif de la pré-formation en modélisation causale du langage, de sorte que les connaissances du monde stockées dans les paramètres du modèle peuvent être mieux utilisées

    • Existe-t-il de réelles garanties de performances pour la génération de documents ? La logique peut-elle le garantir ? Est-ce que cela va intensifier les hallucinations ? ( Des illusions apparaîtront )

      Insérer la description de l'image ici

Méthode

Deux étapes:

  • invite d'abord un LLM à générer des documents contextuels par rapport à une requête donnée

  • lit les documents générés pour prédire la réponse finale (un grand modèle comme InstructGPTpour le zero-shot ou un modèle plus petit comme FIDpour le réglage fin)

Mise à zéro :

  • inviter d'abord un grand modèle de langage ( InstructGPT) à générer des documents basés sur la question donnée avec une stratégie de décodage gourmande
  • utiliser la phrase générée avec la question d'entrée pour produire la réponse finale à partir du grand modèle de langage

Cadre surveillé :

Découvrez comment les documents générés à partir de grands modèles de langage peuvent bénéficier au cadre supervisé.

  • exploiter un petit modèle de lecteur, par exemple FiDpour parcourir les documents générés dans le cadre supervisé (affiner le lecteur)
  • la mise à l'échelle de la taille des documents récupérés peut conduire à de meilleures performances (pour le modèle de récupération)
    • Mais il est difficile de générer des documents diversifiés

Invites basées sur le clustering :

Insérer la description de l'image ici

  • étape 1 : obtenez un document initial par question
    • avons maintenant une paire question-document définie { qi , di } i = 1 ∣ Q ∣ \{q_i,d_i\}_{i=1}^{|Q|}{ qje,dje}je = 1Q( QQQ est l'ensemble des questions dans la division de formation)
  • étape 2 : encoder chaque paire question-document, effectuer le clustering k-means
  • étape 3 : échantillonner et générer k documents
    • échantillon n(hyperparamètre = 5) paires question-document de chaque cluster c, notées { qc 1 , dc 1 ; qc 2 , br 2 ; . . . ; qcn , dcn } \{qc1, dc1; qc2, cc2; ... ; qcn, dcn\}{ q c 1 ,c 1 ;q c 2 ,c 2 ;... ;q c n ,d c n }
      • Un cluster peut-il représenter une relation entre q et d ?
    • entrée : { qc 1 } { dc 1 } . . . { qcn } { dcn } { question d'entrée } \{qc1\} \{dc1\} ... \{qcn\} \{dcn\} \{question d'entrée\}{ q c 1 } { c 1 } ... { q c n } { c n } { dans p u tq u es t i o n }
    • résultat : un document
    • K clusters -> K documents générés
    • Est-ce correct? Les paires <q,d> utilisées sont indépendantes de la question et sont les mêmes pour toutes les questions d'une question. Pour différentes questions, les documents générés peuvent être liés à un aspect spécifique de la question, car la relation entre <q,d> dans l'invite est la même.

Résultats

Tir zéro

Insérer la description de l'image ici

Cadre surveillé

InstructGPT + FiD( FiDest affiné sur la répartition de la formation des ensembles de données cibles)

Insérer la description de l'image ici

Insérer la description de l'image ici

Autres tâches

Insérer la description de l'image ici

  • Vérification des faits : il existe un écart sémantique plus petit entre la déclaration factuelle donnée et les documents contextuels

Étude de cas

Insérer la description de l'image ici

  • Cela révèle le problème de la récupération. Le document récupéré et la question ne sont pas étroitement liés. Cela peut être dû au fait que certains mots jouent un rôle dans la similarité relativement élevée.
  • La génération est généralement basée sur l'invite et la connexion sera plus étroite.

REBRANCHEMENT

Préface

  • Cet article propose REPLUGune architecture de modèle de langage qui traite les modèles de langage comme des améliorations de récupération de boîte noire. Dans REPLUG, seuls les documents récupérés sont collés devant l'entrée d'origine, et il n'est pas nécessaire de mettre à jour les paramètres du modèle de langage comme auparavant. Les performances peuvent être encore améliorées dans cette architecture en mettant à jour le récupérateur.
    Insérer la description de l'image ici

REBRANCHEMENT

Insérer la description de l'image ici

  • Donner un contexte de saisie
  • REPLUG obtiendra d'abord la ressource externe D = { d 1 , … , dm } D=\{d_1,\dots,d_m\}D={ 1,,dm} récupéré quelques documents pertinents
    • Utiliser une récupération dense basée sur l'encodeur double-tour (paramètres partagés) pour récupérer le document, et un encodeur pour encoder l'entrée xxx et documentjjd
    • L'intégration du document et de l'entrée est la moyenne de la dernière expression de couche cachée de chaque jeton.
    • Calculer xx grâce à la similarité du cosx etjjCorrélation de d : s ( d , x ) = cos ( E ( d ) , E ( x ) ) s(d,x) = cos(E(d),E(x))s ( ,x )=cos ( E ( ) ,E ( x ))
    • Précalculez l'intégration des documents et utilisez-la FAISSpour trouver rapidement les documents les plus importants
  • Nous concaténons ensuite chaque document récupéré avec le contexte d'entrée et l'introduisons dans le grand modèle en parallèle.
    • En raison des limitations de saisie du modèle, il n'est pas possible de combiner tous les documents récupérés avec l'entrée xx .x pour épisser
    • En utilisant la stratégie d'agrégation, lors de l'épissage, chaque document top-k est épissé en xxx devant et saisissez les résultats d’épissage dans le modèle de langage respectivement.
  • Enfin, la probabilité prédite obtenue en agrégeant chaque entrée parallèle est
    • Agréger les résultats calculés séparément ci-dessus
      • Compte tenu du contexte, entrez xxCollection de documents liés à x et top-k D ′ D^{'}D , le prochain jetonyyLa probabilité de génération de y est déterminée par la moyenne pondérée
        • p ( y ∣ x , D ′ ) = ∑ d ∈ D ′ p ( y ∣ d ∘ x ) ⋅ λ ( d , x ) p(y|x,D^{'}) = \sum_{d \in D ^{'}}p(y|d \circ x) \cdot \lambda(d,x)p ( y X ,D )=p ( y x )λ ( ,x )
          • λ ( d , x ) \lambda(d,x)λ ( ,x ) estjjd etxxx similarités ( d , x ) s(d,x)s ( ,x ) résultatssoftmax_

REPLUG LSR : Entraînement du Dense Retriever

Insérer la description de l'image ici

REPLUG LSRPeut être considéré comme REPLUGune version améliorée de . Dans REPLUG, la récupération que nous utilisons peut ne pas être suffisamment adaptée au modèle de langage, nous utilisons donc ici le signal de supervision renvoyé par le modèle de langage lui-même pour ajuster la REPLUGrécupération dans .

  • Le signal de supervision ici peut nous indiquer quel type de documents doit être récupéré

idée principale:notre approche peut être considérée comme un ajustement des probabilités des documents récupérés pour correspondre aux probabilités des perplexités de la séquence de sortie du modèle de langage

  • En fait, il s'agit de la probabilité de faire correspondre le document récupéré et de la probabilité de la séquence de sortie du modèle de langage.
    • La probabilité de la séquence de sortie est le signal de supervision fourni par le modèle de langage
    • Raison de faire cela
      • Si la probabilité que la séquence soit produite par le modèle ground truthest plus grande, alors nous pensons que le modèle est meilleur
      • Nous pensons que si un document est plus utile à la sortie du modèle, alors nous pensons que ce document devrait être récupéré davantage et que sa probabilité de récupération devrait être plus grande.
      • Par conséquent, la probabilité qu'un document soit récupéré doit être positivement liée à la probabilité d'utiliser ce document pour obtenir la séquence de sortie, nous voulons donc faire correspondre la probabilité de récupérer le document avec la probabilité de la séquence de sortie du modèle de langage.

Cette partie présente comment calculer la distribution de probabilité des documents récupérés et la distribution de probabilité des séquences de sortie.

Calcul de la probabilité de récupération

Compte tenu de l'entrée xxx , nous récupérons les k premiers documents avec la probabilité la plus élevée, soitD ′ ⊂ DD^{'} \subset DD'D , documentjjLa probabilité de récupération (vraisemblance) de d est

PR ( d ∣ x ) = es ( d , x ) / γ ∑ d ∈ D ′ es ( d , x ) / γ P_R(d \mid x)=\frac{e^{s(d, x) / \ gamma}}{\sum_{d \in \mathcal{D}^{\prime}} e^{s(d, x) / \gamma}}P.R( dx )=es ( , x ) / ces ( , x ) / c

  • γ \gammaγ estsoftmaxun hyperparamètre utilisé pour contrôler la température

  • Il va de soi que cela devrait figurer dans l'ensemble du DDIl est effectué sur D , mais le montant du calcul est trop important, il est donc effectué surD ′ D^{'}D' Calcul approximatif sur

Calcul de la probabilité LM

Le modèle de langage est utilisé pour évaluer dans quelle mesure chaque document améliore la perplexité du modèle de langage. Tout d'abord, calculez PLM ( y ∣ d , x ) P_{LM}(y|d,x)P.LM _( y ,x ) , qui est donnéxxx et documentjjd ,ground truth ayLa probabilité de génération de y . Si cette probabilité est plus grande, cela signifie que le document actuel augmente le degré de confusion. Calculez ensuite la distribution :

Q ( d ∣ x , y ) = e PLM ( y ∣ d , x ) / β ∑ d ∈ D ′ e PLM ( y ∣ d , x ) / β Q(d \mid x, y)=\frac{e ^{P_{LM}(y \mid d, x) / \beta}}{\sum_{d \in \mathcal{D}^{\prime}} e^{P_{LM}(y \mid d, x) / \bêta}}Q ( x ,oui )=eP.LM _( y , x ) / beP.LM _( y , x ) / b

  • β \bêtaβ est un super paramètre

Après avoir eu deux distributions, loss functionfaites-les correspondre avec

À xx donnéxaay ,calculez la distribution de probabilité de récupération et la distribution de probabilité du modèle de langage.Nous utilisons la divergence KL pour faire correspondre les deux distributions et l'utilisons pour optimiser le récupérateur dense

L = 1 ∣ B ∣ ∑ x ∈ BKL ( PR ( d ∣ x ) ∥ QLM ( d ∣ x , y ) ) \mathcal{L}=\frac{1}{|\mathcal{B}|} \sum_{ x \in \mathcal{B}} KL\left(P_R(d \mid x) \| Q_{\mathrm{LM}}(d \mid x, y)\right)L=B 1x ∈B _KL _( P.R( dx ) ∥Q _LM( dx ,y ) )

  • BBB signifie entréexxensemble de x
  • Nous minimisons la fonction de perte pour optimiser le retriever et le LM reste inchangé

Étant donné que les paramètres du récupérateur sont mis à jour pendant le processus de formation, l'intégration du document changera après la mise à jour des paramètres, donc chaque TTÀ l'étape T , calculez à nouveau l'intégration du document et répétez le processus ci-dessus.

Configuration de la formation

Modèle

  • LM : GPT-3 (pour REPLUG LSR)
  • Retriever : Contriver (nouveau modèle 2022)

Données d'entraînement

  • Toutes les données de formation proviennent Pile training data(de référence du modèle linguistique contenant du texte dans différents champs)

  • 800 000 séquences longues de 256 jetons en tant que requêtes de formation

    • Chaque requête est divisée en deux parties, les 128 premiers tokens sont utilisés comme contexte d'entrée xxx , la seconde moitié est utilisée comme vérité terrain yyqui doit être poursuivie.oui
  • Corpus externe DDD , échantillon de documents longs de 36 Mo à 128 jetons

Résultats

Modélisation du langage

Insérer la description de l'image ici

  • sous-échantillonnés de manière aléatoire Pile training data(367 millions de documents de 128 jetons) et les utiliser comme corpus de récupération pour tous les modèles

MMLU

Insérer la description de l'image ici

  • Atlasentraîne à la fois le récupérateur et le modèle de langage, que nous considérons comme un paramètre LM de récupération en boîte blanche.
  • Pour la version améliorée en matière de récupération, nous utilisons la question de test comme requête, récupérons 10 documents de Wikipédia et les divisons en 10 entrées avec la question. Le résultat final est l'agrégation de 10 sorties.

Contrôle qualité du domaine ouvert

Insérer la description de l'image ici

  • ensemble de données : Natural QuestionetTriviaQA

    • Pour l'évaluation, nous considérons le few-shot(utiliser quelques données de formation) et full data(utiliser toutes les données de formation)
  • RETRO, R2-D2, Atlassont affinés sur les données d'entraînement, soit en quelques tirs, soit avec des données d'entraînement complètes

Analyse

Insérer la description de l'image ici

  • Les améliorations de performances ne proviennent pas seulement de l’agrégation de différents résultats, mais l’agrégation de documents associés est la clé du succès.
  • À mesure que le nombre de documents agrégés augmente, les performances REPLUGet REPLUG LSRs'améliorent en un seul point, mais un petit nombre de documents (par exemple, 10) peuvent bien fonctionner.

Insérer la description de l'image ici

  • REPLUGLe gain de performances est cohérent avec la taille du modèle et peut être appliqué à différents modèles

Insérer la description de l'image ici

  • REPLUGest plus utile lorsque les textes contiennent des entités rares

on ne sait pas clairement quand le modèle s'appuie sur des connaissances récupérées ou des connaissances paramétriques

Quand ne pas faire confiance aux modèles de langage

Aperçu

  • Il a été démontré que les LM ont une mémorisation limitée pour les entités moins fréquentes, sont sujets aux hallucinations et souffrent d'une dégradation temporelle.
  • on ne sait pas si elle (incorporant des connaissances non paramétriques) est strictement supérieure ou complémentaire aux connaissances paramétriques

cible : comprendre quand nous devrions et ne devrions pas nous fier aux connaissances paramétriques des LM, et comment la mise à l'échelle et les mémoires non paramétriques peuvent aider

Configuration de l'évaluation

Insérer la description de l'image ici

  • objectif : connaissance factuelle
  • format de tâche : assurance qualité en domaine ouvert

Dimensions d'analyse :

  • Des recherches antérieures utilisent souvent le terme fréquence des entités objets dans les corpus de pré-formation pour comprendre la mémorisation
  • se concentrer sur les deux autres variables d’un triplet de connaissances factuelles : l’ entité sujet et le type de relation .
    • entité sujet : utilisez la popularité des entités mesurée par les pages vues mensuelles de Wikipédia
    • type de relation :

Base de données:

PopQA : échantillonner aléatoirement des triplets de connaissances de 16 types de relations à partir deWikidata

EntityQuestions : utilisez le lien hypertexte Wikipédia comme indicateur de la fréquence des entités et échantillonnez les triples de connaissances à partir WikiDatades distributions de fréquence

Rés

sans récupération

Insérer la description de l'image ici

  • il existe une corrélation positive entre la popularité de l'entité sujet et la précision des modèles pour presque tous les types de relations
  • les connaissances factuelles de certains types de relations sont plus faciles à mémoriser que d’autres

Insérer la description de l'image ici

  • La mise à l'échelle peut ne pas aider à connaître la queue

avec récupération

exécuter un système de récupération prêt à l'emploi hors ligne pour récupérer le contexte de Wikipédia pertinent pour une question et concaténer le contexte récupéré (le premier pour plus de simplicité) avec la question d'origine

  • utiliser BM25/Contriever

Insérer la description de l'image ici

  • La récupération améliore considérablement les performances

Insérer la description de l'image ici

  • Les mémoires non paramétriques sont efficaces pour les faits moins populaires

Insérer la description de l'image ici

  • Les mémoires non paramétriques peuvent induire les LM en erreur

Récupération adaptative

nous utilisons la récupération pour les questions dont la popularité est inférieure à un seuil

  • déterminer le seuil de popularité indépendamment pour chaque type de relation. (maximiser la précision adaptative sur un ensemble de développement)

Insérer la description de l'image ici

Insérer la description de l'image ici

Résumé

  • La mémorisation des LM (RQ1) est souvent limitée aux connaissances factuelles populaires et GPT-3 davinci-003ne parvient même pas à répondre à la majorité des questions à longue traîne.

    • la mise à l'échelle des modèles n'améliore pas significativement les performances pour les questions à longue traîne
  • Les mémoires non paramétriques améliorent considérablement les performances sur les distributions à longue traîne entre les modèles.

    • l'augmentation de la récupération peut nuire aux performances des grands LM sur des questions sur les entités populaires, car le contexte récupéré peut être trompeur
  • Concevoir une méthode LM augmentée par récupération simple mais efficace, Adaptive Retrievalqui combine de manière adaptative des mémoires paramétriques et non paramétriques en fonction de la popularité

Je suppose que tu aimes

Origine blog.csdn.net/qq_52852138/article/details/133019348
conseillé
Classement