LLM Prompt Technique Paper Lecture intensive-1

Voici quelques articles émergents dans le domaine de la technique rapide que l'auteur a lus récemment et le résumé correspondant, et partagez-les pour que tout le monde puisse apprendre ensemble.

Mise à jour continue...

L'incitation à la chaîne de pensée suscite le raisonnement dans les grands modèles de langage L'invite à la chaîne de pensée suscite le raisonnement dans les grands modèles de langage

Lien : https://arxiv.org/pdf/2201.11903.pdf

Heure : 2022

Résumé : Nous explorons comment la génération d'une série d'étapes de raisonnement intermédiaires, connues sous le nom de chaînes de pensée, peut améliorer de manière significative la capacité des grands modèles de langage à effectuer un raisonnement complexe. En particulier, nous montrons comment cette capacité de raisonnement émerge naturellement dans des modèles de langage suffisamment grands, grâce à une méthode simple appelée incitation à la chaîne de pensée, dans laquelle plusieurs démonstrations de chaîne de pensée sont fournies à titre d'exemple. Des expériences sur trois modèles de langage à grande échelle montrent que les signaux de la chaîne de pensée améliorent les performances sur les tâches d'arithmétique, de bon sens et de raisonnement symbolique. Les gains empiriques peuvent être importants. Par exemple, en utilisant seulement huit exemples de chaîne de pensée pour demander un modèle de langage avec des paramètres 540B, on obtient une précision de pointe sur la référence GSM8K pour les problèmes de mots mathématiques, dépassant même le GPT-3 affiné avec un validateur.

关键词:Incitation à la chaîne de pensée, raisonnement, grands modèles de langage, arithmétique, bon sens, raisonnement symbolique, précision de pointe

Idées clés:

  • En générant une série de chaînes de pensée d'étapes de raisonnement intermédiaires, la capacité des grands modèles de langage à effectuer un raisonnement complexe peut être considérablement améliorée.
  • Dans des modèles de langage suffisamment grands, cette capacité de raisonnement peut émerger naturellement, par une méthode simple - l'incitation à la chaîne de pensée, c'est-à-dire en fournissant des démonstrations de la chaîne de pensée dans l'invite.
  • Des expériences sur trois modèles de langage à grande échelle montrent que les indices de chaîne de pensée peuvent améliorer les performances sur une gamme de tâches d'arithmétique, de bon sens et de raisonnement symbolique, avec des résultats expérimentaux significatifs.

Leçons apprises:

  • En fournissant des démonstrations de chaîne de pensée, la capacité de raisonnement des grands modèles de langage peut être efficacement améliorée.
  • L'optimisation de la chaîne de pensée est un moyen simple mais efficace d'améliorer les performances des modèles de langage sans formation supplémentaire.
  • Les indices de chaîne de pensée peuvent atteindre des performances au-delà des modèles de pointe actuels dans des tâches telles que des problèmes mathématiques.

Suggestions associées :

  • Explorez plus avant l'application de la pensée en chaîne dans des modèles de langage à grande échelle et essayez d'appliquer cette méthode à davantage de tâches pour vérifier son universalité et son efficacité.
  • Recherchez comment automatiser le processus de génération de la pensée en chaîne pour réduire le coût de l'annotation manuelle et améliorer l'évolutivité du modèle.
  • Découvrez comment combiner la pensée en chaîne avec d'autres techniques, telles que l'apprentissage par transfert, le méta-apprentissage, etc., pour améliorer encore les performances et la généralisation du modèle.
  • Étudiez comment résoudre les éventuels problèmes d'erreur de passage dans la pensée en chaîne pour améliorer la robustesse et la fiabilité du modèle.
  • Découvrez comment la pensée en chaîne peut être appliquée à d'autres domaines, tels que la vision par ordinateur, le traitement du langage naturel, etc., pour étendre l'applicabilité de la méthode.

Les grands modèles de langage sont des raisonneurs à zéro coup Les grands modèles à langage sont des raisonneurs à zéro coup

Résumé : Les grands modèles de langage pré-entraînés (LLM) sont largement utilisés dans de nombreux sous-domaines du traitement du langage naturel (PNL) et sont généralement reconnus comme d'excellents apprenants ponctuels avec des exemples spécifiques à des tâches. Notamment, une technique récente pour susciter un raisonnement complexe en plusieurs étapes par des exemples de réponses étape par étape - l'incitation à la chaîne de pensée (CoT) - a atteint des performances de pointe dans le raisonnement arithmétique et symbolique, qui ne suivent pas l'échelle standard des LLM Loi de difficulté Missions du Système 2. Bien que ces succès soient souvent attribués aux capacités d'apprentissage en quelques coups des LLM, nous montrons que les LLM sont des raisonneurs décents en ajoutant simplement "réfléchissons étape par étape" avant chaque réponse. Les résultats expérimentaux montrent que notre Zero-Shot-CoT, tout en utilisant le même modèle de repère unique, surpasse de manière significative les performances LLM du Zero-Shot sur diverses tâches d'inférence de référence, y compris l'arithmétique (MultiArith, GSM8K, AQUA-RAT, SVAMP), le raisonnement symbolique (Last Letter, Coin Flip) et d'autres tâches de raisonnement logique (Date Understanding, Tracking Shuffled Objects), sans aucun exemple artisanal de quelques échantillons, comme MultiArith utilisant un grand modèle InstructGPT (text-davinci-002) Améliorations de la précision de 17,7 % à 78,7 % pour GSM8K et 10,4 % à 40,7 % pour GSM8K, et des améliorations d'une ampleur similaire en utilisant un autre grand modèle standard, le paramètre 540B PaLM. La diversité de ce signal unique couvrant des tâches de raisonnement très différentes fait allusion à une capacité de tir zéro largement inexplorée et non étudiée des LLM, suggérant que des niveaux élevés de capacité cognitive multitâche à l'échelle peuvent être extraits par un simple repérage. Nous espérons que notre travail servira non seulement de base de référence zéro-shot minimale pour les tests de référence d'inférence difficiles, mais mettra également l'accent sur l'exploration et l'analyse minutieuses de l'énorme connaissance zéro-shot cachée dans les LLM avant de formuler des ensembles de données de réglage fin ou quelques-shot exemples.importance.

关键词:Grands modèles de langage, raisonneurs à coup zéro, incitation à la pensée en chaîne, apprentissage à quelques coups, arithmétique, raisonnement symbolique, raisonnement logique, capacités cognitives étendues multitâches, incitation, ajustement des ensembles de données.

Idées clés:

  • Les grands modèles de langage pré-entraînés (LLM) ne sont pas seulement d'excellents apprenants à quelques coups, mais aussi des raisonneurs décents à zéro coup.
  • L'incitation à la chaîne de pensée (CoT), une technique récente pour susciter un raisonnement complexe en plusieurs étapes grâce à des exemples de réponses étape par étape, peut améliorer considérablement les performances de raisonnement zéro coup des LLM.
  • La polyvalence d'une seule invite à travers diverses tâches de raisonnement suggère des capacités de tir zéro fondamentales inexploitées et sous-étudiées des LLM.
  • Une invite en deux étapes est proposée. La première étape forme le contenu de l'analyse par Pensons étape par étape (similaire à fournir quelques prises de vue), et la deuxième étape génère enfin des résultats basés sur le contenu de l'analyse de la première étape.
  • Benchmark

Leçons apprises:

  • Il est important d'explorer et d'analyser avec soin les connaissances de zéro coup cachées dans les LLM avant de créer des ensembles de données de réglage fin ou des exemples de quelques coups.
  • L'incitation CoT peut être une technique utile pour améliorer les performances de raisonnement zéro coup des LLM.
  • Les résultats de cette étude suggèrent que les LLM peuvent avoir de larges capacités cognitives multitâches de haut niveau qui peuvent être extraites par une simple incitation.

Suggestions associées :

  • Explorez plus en détail les capacités de raisonnement zéro coup des grands modèles de langage et comment cette capacité peut être exploitée pour résoudre des tâches plus complexes.
  • Recherchez comment concevoir des conseils plus efficaces pour améliorer la capacité de raisonnement zéro coup des grands modèles de langage.
  • Explorez les capacités d'apprentissage multi-tâches des grands modèles de langage et comment cela peut être exploité pour améliorer les performances et la généralisation des modèles.
  • Recherchez comment appliquer de grands modèles de langage à un plus large éventail de domaines, tels que la génération de langage naturel, les systèmes de dialogue, etc.
  • Étudiez comment résoudre le problème d'interprétabilité des grands modèles de langage pour améliorer la fiabilité et la convivialité des modèles.

Documents associés :

[1] OPT : Modèles de langage de transformateur ouverts pré-entraînés

[2] PaLM : mise à l'échelle de la modélisation du langage avec Pathways

[3] Faites ce que je peux, pas ce que je dis : un langage ancré dans les offres robotiques

[4] STaR : Raisonner par amorce avec le raisonnement

[5] L'auto-cohérence améliore le raisonnement en chaîne de pensée dans les modèles de langage

[6] Former des modèles de langage pour suivre les instructions avec un retour humain

[7] Repenser le rôle des démonstrations : qu'est-ce qui fait que l'apprentissage en contexte fonctionne ?

[8] La chaîne d'incitation à la pensée suscite un raisonnement dans de grands modèles de langage

[9] Utiliser DeepSpeed ​​et Megatron pour former Megatron-Turing NLG 530B, un modèle de langage génératif à grande échelle

[10] LaMDA : Modèles de langage pour les applications de dialogue

ReAct : RAISONNEMENT ET ACTION EN SYNERGIE DANS LES MODÈLES DE LANGAGE Raisonnement et action synergiques dans les modèles de langage

Lien : https://arxiv.org/abs/2210.03629

Résumé : Bien que les grands modèles de langage (LLM) aient démontré des capacités impressionnantes dans la compréhension du langage et la prise de décision interactive, leurs capacités de raisonnement (par exemple, les signaux de la chaîne de pensée) et leurs capacités d'action (par exemple, la génération de plans d'action) ont été principalement étudiées en tant que sujets distincts. Dans cet article, nous explorons l'utilisation des LLM pour générer des traces d'inférence et des actions spécifiques à une tâche de manière entrelacée, permettant une plus grande synergie : les traces d'inférence aident les modèles à induire, suivre et mettre à jour les plans d'action et à gérer les exceptions, tandis que les actions permettent de s'interfacer avec des sources externes, telles que des bases de connaissances ou des environnements, pour recueillir des informations supplémentaires. Nous nommons notre méthode ReAct et l'appliquons à une variété de tâches de langage et de prise de décision, et démontrons son efficacité par rapport aux méthodes de base de pointe, ainsi que l'amélioration des performances réalisables par l'homme par rapport aux méthodes sans composants de raisonnement ou d'action. interprétabilité et crédibilité. Plus précisément, en termes de réponse aux questions (HotpotQA) et de vérification des faits (Fever), ReAct surmonte les problèmes d'hallucination et de propagation d'erreurs répandus dans le raisonnement en chaîne de pensée en interagissant avec une simple API Wikipedia, et génère des trajectoires de résolution de tâches humaines plus interprétables. Sur deux benchmarks interactifs de prise de décision (ALFWorld et WebShop), ReAct surpasse les méthodes d'imitation et d'apprentissage par renforcement de 34 % et 10 % en succès absolu, respectivement, tout en n'étant invité qu'avec un ou deux exemples contextuels. Site Web et code du projet : https://react-lm.github.io

关键词:grands modèles de langage, raisonnement, action, actions spécifiques à une tâche, interprétabilité humaine, fiabilité, prise de décision interactive

Idées clés:

  • Les LLM ont principalement été étudiés pour raisonner et agir comme des sujets distincts, mais cet article explore l'utilisation des LLM pour générer à la fois des traces de raisonnement et des actions spécifiques à une tâche de manière entrelacée, permettant une plus grande synergie entre les deux.
  • ReAct, l'approche proposée dans cet article, démontre son efficacité par rapport aux références de pointe sur un ensemble diversifié de tâches de langage et de prise de décision.
  • ReAct génère des trajectoires de résolution de tâches de type humain qui sont plus interprétables que les lignes de base sans traces de raisonnement.
  • ReAct surpasse les méthodes d'imitation et d'apprentissage par renforcement sur deux critères de prise de décision interactive par une marge significative.

Leçons apprises:

  • Combiner le raisonnement et l'action dans les LLM peut conduire à une amélioration des performances et de l'interprétabilité dans les tâches de langage et de prise de décision.
  • L'entrelacement du raisonnement et de l'action peut aider les LLM à gérer les exceptions et à s'interfacer avec des sources d'informations externes.
  • ReAct fournit une approche prometteuse pour les recherches futures dans le domaine du langage et de la prise de décision.

Suggestions associées :

  • Explorez plus en détail comment mettre en œuvre un raisonnement et des actions plus complexes dans le modèle de langage pour améliorer l'aspect pratique et l'applicabilité du modèle.
  • Étudiez comment appliquer les méthodes ReAct à un plus large éventail de domaines de tâches, tels que la génération de langage naturel et les systèmes de dialogue, etc.
  • Découvrez comment améliorer encore l'interprétabilité et la crédibilité de la méthode ReAct pour mieux répondre aux besoins des applications pratiques.
  • Étudiez comment l'approche ReAct peut être combinée avec d'autres techniques, telles que l'apprentissage par renforcement et l'apprentissage par transfert, pour améliorer encore les performances et l'efficacité du modèle.
  • Découvrez comment appliquer les méthodes ReAct à des scénarios plus complexes et réalistes, tels que des tâches multimodales et des systèmes multi-agents.

Monologue intérieur : Raisonnement incarné par la planification avec des modèles de langage Monologue intérieur : Raisonnement incarné par la planification avec des modèles de langage

Lien : https://arxiv.org/abs/2207.05608

Résumé : Des études récentes ont montré que les capacités de raisonnement des grands modèles de langage (LLM) peuvent être appliquées dans des domaines au-delà du traitement du langage naturel, tels que la planification et l'interaction des robots. Ces problèmes incarnés exigent que les agents comprennent de nombreux aspects sémantiques du monde : le pool de compétences disponibles, comment ces compétences affectent le monde et comment les changements de la carte du monde reviennent à la langue. La planification des LLM dans des environnements incarnés doit tenir compte non seulement des compétences à acquérir, mais également de la manière et du moment de les acquérir - des réponses qui changent au fil du temps à mesure que les agents font leurs propres choix. Dans ce travail, nous étudions dans quelle mesure les LLM sont capables de raisonner dans de tels environnements incarnés en utilisant des sources de rétroaction fournies par le langage naturel, sans aucune formation supplémentaire. Nous proposons qu'en exploitant la rétroaction environnementale, les LLM sont capables de former des monologues internes qui leur permettent de traiter et de planifier plus richement des scénarios de contrôle robotique. Nous étudions diverses sources de rétroaction, telles que les détections réussies, les descriptions de scènes et les interactions humaines. Nous constatons que la rétroaction linguistique en boucle fermée améliore considérablement l'achèvement des instructions de haut niveau dans trois domaines, y compris les tâches de réorganisation de bureau simulées et réelles et les tâches de manipulation mobile à long terme dans un environnement de cuisine réel.

关键词:Grands modèles de langage, raisonnement incarné, planification, rétroaction en langage naturel, contrôle robotique, achèvement des instructions, compréhension sémantique.

Idées clés:

  • Les capacités de raisonnement des grands modèles de langage (LLM) peuvent être appliquées dans des domaines autres que le traitement du langage naturel, tels que la planification et l'interaction des robots.
  • Dans les scénarios de contrôle de robot, les LLM doivent considérer non seulement les compétences à faire, mais aussi comment et quand faire ces compétences.
  • En utilisant la rétroaction environnementale, les LLM sont capables de former des monologues internes qui permettent un traitement et une planification plus riches des scénarios de contrôle de robot.

Leçons apprises:

  • En exploitant la rétroaction environnementale, le taux d'achèvement des instructions de haut niveau des LLM dans les scénarios de contrôle robotique peut être amélioré.
  • La rétroaction linguistique en boucle fermée améliore considérablement l'achèvement des instructions de haut niveau dans trois domaines, y compris les tâches de réorganisation de bureau simulées et réelles et les tâches de manipulation mobile à long terme.
  • L'application des LLM dans les scénarios de contrôle de robots doit prendre en compte le choix des compétences, l'impact des compétences sur l'environnement et l'impact des changements environnementaux sur le langage.

Suggestions associées :

  • Explorer davantage l'application des LLM dans des domaines spécifiques, comment mieux les appliquer à des domaines tels que le contrôle des robots.
  • Recherchez comment améliorer les performances des LLM dans des domaines spécifiques et comment mieux utiliser les commentaires environnementaux pour améliorer leurs performances.
  • Découvrez comment les LLM peuvent être utilisés en conjonction avec d'autres techniques, telles que l'apprentissage par renforcement, pour améliorer leurs performances dans des domaines spécifiques.
  • Recherchez comment appliquer les LLM à des environnements plus complexes, tels que des systèmes multi-agents.
  • Découvrez comment appliquer les LLM à des domaines plus larges tels que la conduite autonome.

Agents génératifs : simulacres interactifs du comportement humain Agents génératifs : simulation interactive du comportement humain

Lien : https://arxiv.org/abs/2304.03442

Résumé : Des agents comportementaux humains dignes de confiance peuvent alimenter une variété d'applications interactives, y compris des environnements immersifs, des espaces de répétition pour la communication humaine et des outils de prototypage. Cet article présente les agents génératifs, des agents logiciels qui simulent un comportement humain plausible. Les agents génératifs se réveillent, préparent le petit-déjeuner et vont travailler ; les artistes peignent et les écrivains écrivent ; ils se forgent des opinions, se remarquent et engagent des conversations ; ils se souviennent et réfléchissent sur les jours passés tout en planifiant les jours futurs. Pour activer les agents génératifs, nous décrivons une architecture qui étend un grand modèle de langage pour stocker l'enregistrement complet des expériences d'un agent utilisant le langage naturel, synthétiser ces souvenirs en réflexions de niveau supérieur au fil du temps et les récupérer dynamiquement. Nous avons généré des agents en les instanciant dans un environnement bac à sable interactif inspiré des Sims, permettant aux utilisateurs finaux d'interagir avec vingt-cinq habitants agents en utilisant le langage naturel. Dans les évaluations, ces agents génératifs présentent un comportement individuel et de groupe plausible : par exemple, en partant d'une simple notion spécifiée par l'utilisateur qu'un agent veut organiser une fête pour la Saint-Valentin, les agents propagent de manière autonome la fête au cours des deux prochains jours, invitent, rencontrent de nouveaux personnes, sortez ensemble à des fêtes et coordonnez-vous pour vous présenter ensemble à des fêtes au bon moment. Nous démontrons à travers des expériences d'ablation que les composants de notre architecture d'agent - observation, planification et réflexion - jouent tous un rôle essentiel dans la crédibilité du comportement de l'agent. En combinant des modèles de langage à grande échelle avec des agents interactifs par ordinateur, cette étude introduit des architectures et des modèles d'interaction pour des simulations crédibles du comportement humain.

关键词:agents génératifs, comportement humain crédible, applications interactives, environnements immersifs, espaces de répétition, outils de prototypage, grand modèle de langage

Idées clés:

  • Introduit une classe d'agents logiciels appelés "agents génératifs" qui peuvent simuler un comportement humain plausible.
  • Décrit une architecture pour mettre à l'échelle de grands modèles de langage pour stocker l'expérience d'un agent et récupérer et planifier dynamiquement le comportement.
  • Les agents génératifs sont instanciés dans un environnement interactif inspiré des Sims, et les utilisateurs peuvent interagir avec ces agents en utilisant le langage naturel.
  • Les expériences prouvent que le comportement de l'agent est crédible et peut générer des comportements individuels et des comportements sociaux émergents.

Leçons apprises:

  • L'observation, la planification et la réflexion sont des éléments clés de la création d'un comportement d'agent de confiance.
  • La combinaison de grands modèles de langage avec des agents interactifs par ordinateur permet des simulations crédibles du comportement humain.
  • Ce travail introduit une architecture et un schéma d'interaction pour des simulations crédibles du comportement humain.

Suggestions associées :

  • Poursuivre l'étude et améliorer le mécanisme de mémoire des agents génératifs afin d'améliorer leur capacité à simuler le comportement humain. Comment mieux stocker et récupérer l'expérience d'un agent, et comment les synthétiser dans des réflexions de niveau supérieur, peuvent être explorées.
  • Explorez comment les agents génératifs peuvent être rendus plus adaptatifs et flexibles pour s'adapter aux changements dans différents environnements et situations. Il est possible d'étudier comment amener l'agent à ajuster son comportement en fonction des entrées externes et de l'interaction de l'utilisateur, et être capable de s'adapter à de nouvelles tâches et objectifs.
  • Étude approfondie des mécanismes de planification et de prise de décision des agents générateurs pour améliorer leurs performances en interaction sociale et en coordination. Comment permettre aux agents de mieux comprendre et expliquer le comportement des autres agents, ainsi que pour une prise de décision sociale et une collaboration efficaces, peut être exploré.
  • Les applications potentielles des agents génératifs dans différents domaines d'application sont explorées plus en détail. Il peut être étudié comment les agents génératifs peuvent être appliqués dans la réalité virtuelle, l'interaction homme-machine, l'éducation et la formation, etc. pour offrir une expérience utilisateur plus riche et réaliste.
  • Étudiez l'interprétabilité et la contrôlabilité des agents génératifs pour améliorer la compréhension des utilisateurs et le contrôle du comportement des agents. Il peut être exploré comment concevoir l'interface et les méthodes d'interaction, afin que les utilisateurs puissent comprendre intuitivement l'intention de l'agent et le processus de prise de décision, et être en mesure d'ajuster et d'intervenir dans le comportement de l'agent.

ChemCrow : Augmenter les modèles de grands langages avec des outils de chimie Augmenter les grands modèles de langage avec des outils de chimie

Lien : https://arxiv.org/abs/2304.05376

Résumé : Au cours des dernières décennies, de nombreux excellents outils pour la chimie computationnelle ont émergé. Cependant, comme la plupart des outils sont difficiles à apprendre et isolés les uns des autres, leur plein potentiel n'a pas encore été réalisé. Récemment, les grands modèles de langage (LLM) ont montré de bonnes performances dans des tâches dans divers domaines, mais ont rencontré des difficultés lorsqu'ils traitent de problèmes liés à la chimie. De plus, ces modèles n'ont pas accès à des sources de connaissances externes, ce qui limite leur utilité dans les applications scientifiques. Dans cette étude, nous présentons ChemCrow, un agent chimique LLM conçu pour des tâches telles que la synthèse organique, la découverte de médicaments et la conception de matériaux. En intégrant 17 outils conçus par des experts, ChemCrow améliore les performances du LLM en chimie et génère de nouvelles capacités. Notre agent a planifié de manière autonome la synthèse d'un insectifuge, de trois catalyseurs organiques et d'autres molécules apparentées. Notre évaluation, y compris le LLM et l'évaluation d'experts, démontre l'efficacité de ChemCrow dans l'automatisation de diverses tâches chimiques. Étonnamment, nous avons constaté que GPT-4 en tant qu'estimateur était incapable de faire la distinction entre les complétions GPT-4 clairement erronées et les performances de ChemCrow. Des outils comme ChemCrow comportent un risque important d'être mal utilisés, et nous discutons de leurs dommages potentiels. Lorsqu'il est utilisé de manière responsable, notre travail aide non seulement les chimistes professionnels et abaisse les barrières pour les profanes, mais fait également progresser la science en comblant le fossé entre la chimie expérimentale et computationnelle. Une partie du code est accessible au public sur https://github.com/ur-whitelab/chemcrow-public .

关键词:ChemCrow, modèles en grand langage, outils de chimie computationnelle, synthèse organique, découverte de médicaments, conception de matériaux, automatisation de tâches chimiques

Idées clés:

  • Présentation de ChemCrow, un agent de chimie basé sur un modèle de langage à grande échelle (LLM) qui améliore les performances du LLM en chimie en intégrant 17 outils conçus par des experts.
  • ChemCrow a pu planifier de manière autonome la synthèse d'insectifuges, d'organocatalyseurs et d'autres molécules apparentées, démontrant ainsi son efficacité dans l'automatisation des tâches chimiques.
  • GPT-4 en tant qu'estimateur ne peut pas faire la distinction entre des complétions GPT-4 manifestement erronées et les performances de ChemCrow, et il existe un risque d'utilisation abusive.
  • Les dangers potentiels d'outils comme ChemCrow sont discutés.

Leçons apprises:

  • L'intégration et l'application d'outils chimiques peuvent améliorer les performances de grands modèles de langage dans le domaine chimique.
  • Lors de l'utilisation d'un outil comme ChemCrow, des précautions doivent être prises pour éviter les abus et les dommages potentiels.
  • Le progrès scientifique peut être facilité en comblant le fossé entre la chimie expérimentale et computationnelle.

Suggestions associées :

  • Améliorez et optimisez davantage les performances de ChemCrow pour renforcer sa capacité d'application dans le domaine de la chimie.
  • Étendez les fonctionnalités de ChemCrow afin qu'il puisse gérer une plus grande variété de tâches chimiques, telles que la conception de catalyseurs, la prédiction de réactions, etc.
  • Renforcez la connexion de ChemCrow avec des sources de connaissances externes pour fournir des informations chimiques plus complètes et précises, améliorant encore son utilité dans les applications scientifiques.
  • Recherchez et résolvez les risques et dangers potentiels que ChemCrow peut avoir pour assurer sa sécurité et sa fiabilité pendant son utilisation.
  • Promouvoir et vulgariser l'utilisation de ChemCrow pour aider davantage de chimistes experts et de non-professionnels à participer à la recherche chimique, et promouvoir l'intégration entre la chimie expérimentale et computationnelle.

API-Bank : une référence pour les LLM augmentés par des outils Une référence pour les LLM augmentés par des outils

Lien : https://arxiv.org/abs/2304.08244

Résumé : Des études récentes ont montré que les grands modèles de langage (LLM) peuvent tirer parti d'outils externes pour améliorer leurs capacités de traitement de contexte, s'éloignant du paradigme de la modélisation du langage pur et ouvrant la voie à l'intelligence artificielle générale. Néanmoins, il y a actuellement un manque d'évaluation systématique pour démontrer l'efficacité des LLM utilisant des outils pour répondre aux instructions humaines. Cet article présente API-Bank, le premier benchmark conçu pour les LLM enrichis d'outils. API-Bank comprend 53 outils API couramment utilisés, un flux de travail LLM complet amélioré par l'outil et 264 conversations annotées, contenant un total de 568 appels API. Ces ressources sont conçues pour évaluer de manière exhaustive la capacité des LLM à planifier des appels d'API étape par étape, à récupérer les API associées et à exécuter correctement les appels d'API pour répondre aux besoins humains. Les résultats expérimentaux montrent que par rapport à GPT3, GPT-3.5 a une plus grande capacité à utiliser des outils, tandis que GPT-4 a de meilleures performances de planification. Cependant, la marge de progression est encore considérable par rapport à la performance humaine. En outre, des analyses d'erreurs détaillées et des études de cas démontrent la faisabilité des LLM enrichis d'outils pour un usage quotidien, ainsi que les principaux défis qui doivent être relevés dans les recherches futures.

关键词:Large Language Models, capacités de traitement contextuel, intelligence artificielle générale, benchmark, LLMs augmentées par les outils, outils API, dialogues annotés

Idées clés:

  • Des études récentes ont montré que les grands modèles de langage (LLM) peuvent tirer parti d'outils externes pour améliorer leurs capacités de traitement de contexte, s'éloignant du paradigme de la modélisation du langage pur et ouvrant la voie à l'intelligence générale artificielle.
  • Il y a eu un manque d'évaluation systématique dans le passé pour démontrer l'efficacité des LLM utilisant des outils pour répondre aux instructions humaines.
  • Cet article présente API-Bank, le premier benchmark spécialement conçu pour les LLM enrichis d'outils. API-Bank comprend 53 outils API couramment utilisés, un flux de travail LLM complet amélioré par l'outil et 264 conversations annotées, contenant un total de 568 appels API.
  • Ces ressources sont conçues pour évaluer de manière exhaustive la capacité des LLM à planifier des appels d'API étape par étape, à récupérer les API associées et à exécuter correctement les appels d'API pour répondre aux besoins humains.
  • Les résultats expérimentaux montrent que, par rapport à GPT3, GPT-3.5 montre une plus grande capacité à utiliser des outils, tandis que GPT-4 est plus forte dans les performances de planification. Cependant, la marge de progression est encore considérable par rapport à la performance humaine.
  • En outre, une analyse détaillée des erreurs et des études de cas démontrent la faisabilité des LLM enrichis d'outils pour un usage quotidien, et les principaux défis qui doivent être relevés dans les recherches futures.

Leçons apprises:

  • Les outils externes jouent un rôle important dans l'amélioration des capacités de traitement de contexte des LLM, mais d'autres améliorations sont encore nécessaires.
  • Lors de l'évaluation des capacités des LLM, des aspects tels que les capacités de planification, les capacités de récupération d'API et les capacités d'exécution d'API doivent être pris en compte.
  • Par rapport à GPT3, GPT-3.5 a amélioré l'utilisation des outils, tandis que GPT-4 est plus performant dans la planification des performances, ce qui fournit des orientations pour les recherches futures.
  • Les LLM enrichis d'outils sont potentiellement réalisables pour un usage quotidien, mais certains défis doivent encore être relevés.

Suggestions associées :

  • Élargir davantage les ressources d'API-Bank : afin d'évaluer de manière plus complète la capacité des LLM à utiliser des outils pour répondre aux instructions humaines, des outils d'API et des données de dialogue plus couramment utilisés peuvent être envisagés pour couvrir un plus large éventail de scénarios d'application et d'appels d'API. .
  • Améliorer les performances de planification des LLM : bien que GPT-4 ait amélioré les performances de planification par rapport à GPT-3, il reste encore de la place pour de nouvelles améliorations. Des algorithmes et des stratégies de planification plus efficaces peuvent être explorés pour améliorer la capacité de planification des LLM lors des appels d'API, les rapprochant ainsi des performances humaines.
  • Explorez d'autres domaines d'application : en plus de la tâche d'appel d'API actuelle, vous pouvez envisager d'appliquer des LLM augmentés par des outils à d'autres domaines, tels que les tests automatisés, la génération de code, etc. Cela contribuera à valider et à étendre davantage le potentiel des outils utilisés par les LLM et à fournir davantage d'orientations de recherche pour les recherches futures.
  • Relever les défis des LLM augmentés par des outils : grâce à une analyse détaillée des erreurs et des études de cas, il est possible de mieux comprendre les principaux défis auxquels sont confrontés les LLM augmentés par des outils dans leur utilisation quotidienne. Les recherches futures peuvent approfondir ces défis, tels que la correction d'erreurs, la compréhension du contexte, etc., afin d'améliorer encore les performances et la convivialité des LLM augmentées par les outils.
  • Favoriser le développement de l'intelligence artificielle générale : La recherche de LLM utilisant des outils externes pour améliorer le traitement du contexte a ouvert une nouvelle voie pour le développement de l'intelligence artificielle générale. Les recherches futures peuvent explorer davantage la combinaison des LLM et d'autres technologies, telles que les graphes de connaissances, les moteurs de raisonnement, etc., pour parvenir à un système d'intelligence générale artificielle plus complet et intelligent.

Toolformer : les modèles de langage peuvent s'apprendre à utiliser des outils Les modèles de langage peuvent s'apprendre à utiliser des outils

Lien : https://arxiv.org/abs/2302.04761

Résumé : Les modèles de langage (LM) démontrent la remarquable capacité à résoudre de nouvelles tâches à grande échelle avec seulement quelques exemples ou instructions textuelles. Paradoxalement, cependant, ils présentent des difficultés avec les fonctions de base, telles que l'arithmétique ou la recherche de faits, dans lesquelles excellent les modèles plus simples et plus petits. Dans cet article, nous montrons que les LM peuvent apprendre par eux-mêmes à utiliser des outils externes via une simple API et à obtenir une combinaison optimale des deux. Nous présentons Toolformer, un modèle formé pour décider quelles API appeler, quand les appeler, quels paramètres passer et comment incorporer au mieux les résultats dans les futures prédictions de marqueurs. Cela se fait de manière auto-supervisée, ne nécessitant que quelques démonstrations de chaque API. Nous avons intégré une gamme d'outils comprenant une calculatrice, un système de questions-réponses, deux moteurs de recherche différents, un système de traduction et un calendrier. Toolformer atteint des performances zéro coup considérablement améliorées dans une variété de tâches en aval, souvent en concurrence avec des modèles plus grands sans sacrifier ses capacités de modélisation de langage de base.

关键词:Modèles de langage, outils, API, apprentissage auto-supervisé, performances zéro coup, tâches en aval, capacités de modélisation du langage

Idées clés:

  • Les modèles de langage (LM) ont montré des capacités remarquables pour résoudre de nouvelles tâches avec seulement quelques exemples ou instructions textuelles, en particulier à grande échelle.
  • Cependant, les LM ont du mal avec les fonctions de base, telles que l'arithmétique ou la recherche de faits, dans lesquelles excellent les modèles plus simples et plus petits.
  • Cet article montre que les LM peuvent apprendre par eux-mêmes à utiliser des outils externes via une API simple et obtenir la meilleure combinaison des deux.
  • Les auteurs présentent Toolformer, un modèle formé pour décider quelles API appeler, quand appeler, quels paramètres passer et comment incorporer au mieux les résultats dans les futures prédictions de marqueurs.
  • Cette approche auto-supervisée ne nécessite que quelques démonstrations de chaque API.
  • Toolformer comprend une variété d'outils, dont une calculatrice, un système de questions-réponses, deux moteurs de recherche différents, un système de traduction et un calendrier.
  • Toolformer améliore considérablement les performances de zéro coup sur une variété de tâches en aval, souvent en concurrence avec des modèles plus grands sans sacrifier ses capacités de modélisation de langage de base.

Leçons apprises:

  • En utilisant des outils externes, les LM peuvent compenser leur manque de fonctionnalités de base et améliorer les performances.
  • L'auto-apprentissage à l'aide d'outils externes peut être réalisé via une simple API sans formation supervisée complexe.
  • Quelques démonstrations suffisent au modèle pour apprendre à utiliser chaque API.
  • L'introduction de Toolformer permet aux LM d'obtenir des améliorations significatives dans les tâches en aval, comparables à des modèles plus grands.
  • Le succès de Toolformer montre qu'en combinant différents outils, les LM peuvent atteindre d'excellentes performances dans diverses tâches.

Suggestions associées :

  • Recherche et perfectionnement du modèle Toolformer pour améliorer ses performances dans diverses tâches en aval. Vous pouvez essayer d'utiliser plus d'API et d'outils, ainsi que des scénarios de tâches plus complexes pour évaluer l'adaptabilité et la capacité de généralisation du modèle.
  • Découvrez comment réduire la dépendance aux démos d'API lors de la formation des modèles Toolformer. Actuellement, chaque API nécessite des démos pour guider le modèle afin d'apprendre à l'utiliser. Envisagez d'utiliser moins de démonstrations ou d'autres méthodes d'apprentissage auto-supervisé pour améliorer la capacité d'auto-apprentissage du modèle.
  • Étudiez comment améliorer davantage les performances des modèles Toolformer sur les fonctions de base, telles que les opérations arithmétiques ou la recherche de faits. Bien que Toolformer excelle dans l'utilisation d'outils externes, certaines fonctions de base présentent encore des défis. On peut essayer de concevoir des méthodes plus efficaces pour aider le modèle à apprendre et à comprendre ces fonctions de base.
  • Découvrez comment les modèles Toolformer peuvent être appliqués dans des scénarios réels, tels que l'automatisation des tâches de bureau ou des assistants intelligents. Toolformer peut être combiné avec d'autres modèles de traitement du langage naturel ou des modèles spécifiques à une tâche pour réaliser des tâches et des fonctions plus complexes.
  • Étudiez comment améliorer l'interprétabilité et la contrôlabilité des modèles Toolformer. Étant donné que le modèle Toolformer est auto-apprenant, son processus de prise de décision peut être difficile à expliquer et à contrôler. On peut explorer comment concevoir des méthodes explicatives ou introduire des contraintes pour augmenter l'interprétabilité et la contrôlabilité du modèle.

Je suppose que tu aimes

Origine blog.csdn.net/linZinan_/article/details/131543011
conseillé
Classement