Lecture de papier Une enquête sur les grands modèles de langage 1

Résumé

Le développement de l'intelligence du langage machine, en particulier des modèles de langage pré-entraînés (PLM) à grande échelle, est discuté. Cette revue détaille l'évolution des modèles de langage depuis les modèles de langage statistiques, les modèles de langage neuronal jusqu'aux modèles de langage pré-entraînés (PLM). Les auteurs soulignent que l'extension du modèle des LLM à grande échelle au-delà d'une certaine taille de paramètre conduit à l'émergence de nouvelles capacités. Ce phénomène a conduit à la création de puissants chatbots IA, tels que ChatGPT, capables de résoudre des tâches complexes et de présenter d'excellentes capacités de conversation avec les humains. Cet examen souligne la nécessité d'évaluer et de comprendre les performances des LLM, y compris leur pré-formation, leur adaptation, leur utilisation et leur évaluation des capacités. Cet article explique que le développement des LLM ne se limite pas à la recherche universitaire, mais implique également une expérience pratique dans le traitement de données à grande échelle et le calcul parallèle distribué. Cette revue fournit une revue complète de la littérature sur les LLM et constitue une ressource utile pour les chercheurs et les ingénieurs.

introduire

Le langage est le moyen de communication le plus important pour les êtres humains, mais les machines ne peuvent pas naturellement saisir et utiliser le langage humain. La modélisation du langage est l'une des principales approches pour améliorer l'intelligence du langage machine, qui vise à prédire la probabilité de jetons futurs (ou manquants). La recherche LM est passée par quatre étapes de développement. Réaliser des machines qui lisent, écrivent et communiquent comme des humains a longtemps été un défi de recherche.

  • Les modèles de langage statistique (SLM) sont des modèles de prédiction de mots basés sur l'hypothèse de Markov, qui améliorent les performances des tâches en prédisant le mot suivant, et sont largement utilisés dans la recherche d'informations (RI). Les modèles de langage N-grammes sont un type particulier de SLM dans lesquels la longueur de contexte n est fixe, comme les modèles de langage bigramme et trigramme. Cependant, l'estimation du modèle de langage d'ordre élevé souffre du problème de rareté des données, ce qui rend difficile l'estimation précise des probabilités de transition, nécessitant ainsi des stratégies de lissage spécialement conçues telles que l'estimation de backoff et l'estimation de Good-Turing.
  • Un modèle de langage neuronal (NLM) est un modèle qui représente la probabilité d'une séquence de mots à travers un réseau de neurones. Le développement de la NLM a traversé de nombreuses recherches importantes, telles que l'introduction du concept de représentation distribuée des mots, le développement d'une méthode générale de réseau de neurones en étendant l'idée d'apprendre les caractéristiques efficaces des mots ou des phrases, et la construction d'un réseau de neurones peu profond simplifié Réseau word2vec pour apprendre les représentations de mots distribués. Ces études ont été les pionnières de l'application de modèles linguistiques dans l'apprentissage de la représentation et ont eu un impact important sur le domaine du traitement du langage naturel.
  • Le modèle de langage pré-entraîné (PLM) est un outil important dans les tâches NLP.Des premières tentatives telles que ELMo et BERT, une architecture Transformer hautement parallélisée basée sur un mécanisme d'auto-attention, ont été proposées. Ces représentations de mots contextuelles pré-formées sont très efficaces en tant que fonctionnalités sémantiques à usage général et peuvent grandement améliorer la barre de performances des tâches NLP. Les travaux ultérieurs ont introduit une variété d'architectures différentes et amélioré les stratégies de pré-formation. Le PLM doit généralement être affiné pour différentes tâches en aval.
  • La mise à l'échelle des grands modèles de langage (PLM) améliore souvent la capacité et les performances des modèles, et la communauté des chercheurs a inventé le terme «grands modèles de langage (LLM)» pour ces grands PLM. Bien que la mise à l'échelle soit principalement basée sur la taille du modèle, les grands PLM présentent des comportements différents des petits PLM et montrent des capacités surprenantes dans la résolution de tâches complexes. ChatGPT2 est une application remarquable de LLM, qui permet des conversations étonnantes avec les humains.

Cet article présente les derniers progrès des modèles de génération de langage naturel (LLM), en se concentrant sur les techniques et méthodes de développement et d'utilisation, et donne un aperçu des derniers progrès sous quatre aspects : pré-formation, adaptation, utilisation et évaluation des capacités. . Le LLM présente trois différences principales par rapport aux petits PLM, notamment en montrant des capacités émergentes surprenantes, en modifiant la façon dont les humains développent et utilisent des algorithmes d'IA et en impliquant des problèmes d'ingénierie tels que le traitement de données à grande échelle et la formation parallèle distribuée dans la formation. Malgré les progrès et l'impact du LLM, ses principes sous-jacents ne sont toujours pas bien explorés. De plus, en raison du coût énorme de la pré-formation du modèle et de nombreux détails non divulgués au public, il est difficile pour la communauté des chercheurs de former un LLM capable pour cela. L'article souligne que la recherche et le développement du LLM présentent à la fois des opportunités et des défis, ce qui mérite l'attention. Enfin, l'article résume les principaux résultats de cette enquête et discute des questions restantes pour les travaux futurs.

examen

Dans cette section, nous présentons le contexte de LLM, y compris les termes clés, les capacités et les techniques.

Contexte Un modèle de langage à grande échelle fait référence à un modèle de langage avec des centaines de milliards de paramètres qui est formé sur une grande quantité de données textuelles. Il utilise l'architecture Transformer et les cibles de pré-formation, et améliore la compréhension du langage naturel et la capacité à générer texte de haute qualité. L'augmentation de la taille du modèle suit à peu près une loi d'échelle, mais certaines capacités ne sont observées que lorsque la taille du modèle dépasse un certain niveau.

LLM a des capacités émergentes dont les capacités émergentes apparaissent dans les grands modèles mais pas dans les petits. Lorsque la capacité émergente apparaît, lorsque l'équivalence atteint un certain niveau, sa performance est nettement supérieure au niveau aléatoire. Le mode émergent de LLM est étroitement lié au phénomène de transition de phase en physique. LLM a trois capacités émergentes typiques, qui peuvent être appliquées à la capacité générale de résoudre plusieurs tâches.

  1. GPT-3 peut apprendre en contexte en complétant la séquence de mots du texte d'entrée pour générer la sortie attendue pour l'instance de test sans formation supplémentaire ni mises à jour de gradient ;
  2. Grâce au réglage des instructions, il est capable d'effectuer de nouvelles tâches en comprenant les instructions de tâche sans utiliser d'exemples explicites, améliorant ainsi la généralisation ;
  3. En utilisant la stratégie de raisonnement en chaîne de pensée, des tâches complexes peuvent être résolues à l'aide d'un mécanisme d'indice qui comprend des étapes de raisonnement intermédiaires. Cette capacité peut être acquise par la formation au code.

La technologie clé des LLM LLM est un modèle d'apprentissage automatique avec une capacité d'apprentissage élevée. Après une longue période de développement, sa technologie clé a été continuellement améliorée et la capacité des LLM a été améliorée. Plusieurs technologies importantes réussies incluent : la technologie améliore la précision de LLM et efficacité.

Cet article traite des méthodes d'optimisation des modèles de langage, notamment l'évolutivité, la capacité d'excitation, l'ajustement de l'alignement et l'utilisation d'outils externes. L'évolutivité est un facteur clé pour améliorer la capacité du modèle, et cette méthode doit prendre en compte une planification optimale sous trois aspects : la taille du modèle, la taille des données et le calcul total. La motivation implique la conception d'instructions de tâches appropriées ou de stratégies spécifiques à la situation pour développer les capacités de résolution de problèmes d'un modèle. L'ajustement de l'alignement est une méthode permettant de s'assurer que le modèle est cohérent avec les valeurs humaines et d'empêcher le modèle de produire un contenu toxique, biaisé et nocif pour l'homme. Enfin, l'utilisation d'outils externes peut pallier les lacunes du modèle en termes de génération de texte et d'accès à des informations actualisées. Grâce à ces méthodes, des modèles de langage plus fiables et plus efficaces peuvent être construits.

En outre, de nombreux autres facteurs tels que les mises à niveau matérielles contribuent également au succès de LLM. En attendant, nous limitons notre discussion à l'approche technique et aux principales conclusions pour le développement du LLM.

Ressources LLMS

Développer ou répliquer un LLM n'est pas facile, compte tenu des problèmes techniques et des besoins en ressources de calcul. Une approche réalisable consiste à utiliser l'expérience LLM existante et les ressources publiques pour le développement ou la recherche incrémentiels, ce qui comprend des points de contrôle et des API de modèles open source, des corpus disponibles et des bibliothèques utiles pour LLM. Cette section résume ces ressources.

Points de contrôle de modèle ou API accessibles au public

Le coût énorme requis pour la pré-formation du modèle rend crucial un point de contrôle de modèle bien formé. Étant donné que l'échelle des paramètres est un facteur clé pour l'utilisation des LLM, nous classons ces modèles publics en deux niveaux d'échelle (c'est-à-dire des milliards de paramètres ou des dizaines de milliards de paramètres), ce qui aide les utilisateurs à choisir les ressources appropriées en fonction de leur budget de ressources. De plus, pour l'inférence, nous pouvons utiliser directement des API publiques pour effectuer des tâches sans exécuter le modèle localement. Cette section résume brièvement les points de contrôle courants et l'utilisation de l'API des LLM.

Modèles avec des milliards de paramètres

La taille des paramètres de la plupart des modèles open source se situe entre 10B et 20B, tandis que la plus grande version de LLaMA contient 65B paramètres. Les autres modèles incluent mT5, T0, GPT-NeoX-20B, CodeGen, UL2, Flan-T5, mT0 et pangua. Parmi ces modèles, Flan-T5 (version 11B) convient à la recherche de réglage d'instructions, et CodeGen (version 11B) convient à la génération de code. Pour les tâches multilingues, mT0 (version 13B) peut être envisagé. Pangu-α fonctionne bien dans les tâches chinoises en aval, la plus grande version a des paramètres 200B, tandis que LLaMA nécessite des milliers de GPU ou de TPU. Par exemple, GPT-NeoX-20B utilise 12 serveurs Supermicro, tandis que LLaMA utilise 2048 GPU A100-80G. Il est recommandé d'utiliser FLOPS pour estimer les ressources informatiques nécessaires.

Modèles avec des centaines de milliards de paramètres

Pour certains modèles avec des centaines de milliards de paramètres, seuls quelques-uns sont rendus publics, tels que OPT[79], OPT-iml[83], BLOOM[66] et BLOOMZ[82], etc. Parmi eux, OPT (version 175B) est utilisé pour le partage open source et peut être utilisé pour des recherches reproductibles à grande échelle. Ces modèles nécessitent des milliers de GPU ou de TPU pour la formation. Galactica, GLM et OPT-IML ont été réglés à l'aide d'instructions et peuvent être de bons candidats pour étudier l'effet du réglage des instructions. BLOOM et BLOOMZ peuvent être utilisés comme modèles de base pour la recherche de généralisation multilingue.

API publique LLM

L'API n'a pas besoin d'exécuter le modèle localement, offrant aux utilisateurs un moyen pratique de l'utiliser. Parmi elles, l'API du modèle de la série GPT est largement utilisée, comprenant 7 interfaces principales : ada, babbage, curie, davinci, text-ada-001, text-babbage-001 et text-curie-001. Ces interfaces peuvent être optimisées sur le serveur hôte d'OpenAI. Babbage, Curie et Da Vinci correspondent à différentes versions du modèle GPT-3, et il existe également des versions améliorées telles que les API liées au Codex et la série GPT-3.5. La série d'API GPT-4 a récemment été publiée, et la sélection spécifique dépend des scénarios d'application et des exigences de réponse. Voir le site Web du projet pour plus de détails.
insérez la description de l'image ici

corpus commun

Les LLM nécessitent plus de données de formation car elles se composent d'un grand nombre de paramètres et doivent couvrir un large éventail de contenus. Pour répondre à ce besoin, de plus en plus d'ensembles de données de formation sont publiés pour la recherche. Ces corpus sont divisés en six groupes en fonction du type de contenu : Livres, CommonCrawl, Liens Reddit, Wikipédia, Code et Autre.

livres

BookCorpus et Project Gutenberg sont des corpus de livres à petite et à grande échelle couramment utilisés, ce dernier comprenant plus de 70 000 livres littéraires différents. Les plus grands Books1 et Books2 utilisés par GPT-3 ne sont pas encore accessibles au public. Ces ensembles de données sont largement utilisés pour la formation à la traduction automatique, à la génération de langage naturel et à d'autres tâches de traitement du langage.

CommonCrawl

La base de données d'exploration Web open source CommonCrawl est l'une des plus importantes, contenant des gigaoctets de volume de données, mais nécessite un prétraitement en raison du bruit et des informations de mauvaise qualité dans les données Web. Il existe quatre ensembles de données de filtre couramment utilisés dans les travaux existants : C4, CCStories, CC-News et RealNews. Parmi eux, C4 comprend 5 variantes, qui ont été utilisées pour entraîner divers modèles. CC-Stories, un sous-ensemble de données CommonCrawl, n'est plus disponible, mais il existe des versions répliquées. De plus, deux corpus de nouvelles REALNEWS et CC-News extraits de CommonCrawl sont également souvent utilisés comme données de pré-formation.

Lien Reddit

Reddit est une plate-forme de médias sociaux qui permet aux utilisateurs de partager des liens et des messages texte, et les autres utilisateurs peuvent voter sur la qualité de ces messages. Certaines publications de haute qualité peuvent être utilisées pour créer des ensembles de données avancés tels que WebText et PushShift.io. WebText est un corpus de messages très appréciés de la plate-forme Reddit, mais la ressource n'est pas publique. Comme alternative, on peut tirer parti de l'outil open source OpenWebText, tandis que PushShift.io fournit un ensemble de données de mises à jour en temps réel et de données historiques complètes facilement consultables par les utilisateurs pour le traitement initial et l'enquête.

Wikipédia

Wikipédia est une encyclopédie en ligne de haute qualité couvrant un large éventail de sujets et de domaines et composée dans un style d'écriture explicatif. Sa version filtrée en anglais est souvent utilisée dans les LLM, notamment GPT-3, LaMDA et LLaMA. Dans le même temps, Wikipedia propose également plusieurs versions linguistiques, qui peuvent être utilisées dans différents environnements linguistiques.

le code

Le travail récupère principalement des codes sous licence open source sur Internet, les principales sources incluent GitHub et StackOverflow ; Google a publié l'ensemble de données BigQuery, qui contient des extraits de code sous licence open source dans divers langages de programmation, et CodeGen utilise un sous-ensemble de BIGQUERY pour former la version multilingue .

autre

Pile est un ensemble de données textuelles à grande échelle, diversifié et open source, comprenant plus de 800 Go de données, composé de 22 sous-ensembles de haute qualité. Le jeu de données Pile est largement utilisé pour les modèles de différentes échelles de paramètres. ROOTS couvre 59 langues différentes, avec un total de 1,61 To de texte, utilisé pour former BLOOM.

Les LLM utilisent désormais plusieurs sources de données pour la pré-formation au lieu d'un seul corpus. La recherche actuelle utilise plusieurs ensembles de données prêts à l'emploi pour un traitement mixte, et doit également extraire des données de sources pertinentes pour enrichir les données de pré-formation. Parmi eux, GPT-3, PaLM et LLaMA sont des LLM représentatifs, et leurs corpus de pré-formation incluent plusieurs sources, telles que CommonCrawl, WebText2, Wikipedia, les conversations sur les réseaux sociaux, Github, etc. Parmi eux, GPT-3 est formé sur un ensemble de données mixte de 175B, tandis que les tailles d'ensemble de données de pré-formation de PaLM et LLaMA sont respectivement de 540B et de jetons 1.0T ~ 1.4T.
insérez la description de l'image ici
insérez la description de l'image ici

ressources de la bibliothèque

Décrit plusieurs bibliothèques disponibles pour le développement de modèles de langage. Le plus populaire d'entre eux est Transformers maintenu par Hugging Face, qui utilise la structure Transformer et fournit des modèles pré-formés et des outils de traitement de données. DeepSpeed ​​​​de Microsoft et Megatron-LM de NVIDIA prennent en charge les techniques de formation et d'optimisation distribuées. JAX de Google Brain fournit une prise en charge de l'accélération matérielle et Colossal-AI d'EleutherAI développe le modèle ColossalChat basé sur JAX. BMTrain d'OpenBMB se concentre sur la simplicité et la convivialité, tandis que FastMoE prend en charge la formation de modèles Mixture-of-Experts. En plus de ces bibliothèques, les frameworks d'apprentissage en profondeur existants (tels que PyTorch, TensorFlow, etc.) prennent également en charge les algorithmes parallèles.

Je suppose que tu aimes

Origine blog.csdn.net/u010095372/article/details/129956298
conseillé
Classement