LLM Paper Weekly | Recherche sur des articles de pointe de l'Université Tsinghua, de l'Université de Pékin, de Meta AI et d'autres institutions

Le Grand Modèle (LLM) est un modèle d'intelligence artificielle conçu pour comprendre et générer le langage humain. Ils sont formés sur de grandes quantités de données textuelles et peuvent effectuer un large éventail de tâches, notamment le résumé de texte, la traduction, l'analyse des sentiments, etc. Les LLM se caractérisent par leur grande échelle, contenant des milliards de paramètres, les aidant à apprendre des modèles complexes dans les données linguistiques. Ces modèles sont souvent basés sur des architectures d'apprentissage profond telles que des transformateurs, ce qui les aide à atteindre des performances impressionnantes sur une variété de tâches NLP.

Fin 2022, OpenAI a lancé ChatGPT, un modèle de langage à grande échelle basé sur GPT-3.5. En raison de ses excellentes performances, ChatGPT et le modèle de langage à grande échelle qui le sous-tend sont rapidement devenus un sujet brûlant dans le domaine de l'intelligence artificielle. attirant l’attention et l’attention d’un grand nombre de chercheurs et de développeurs scientifiques.

Cette semaine, nous avons sélectionné 10 articles exceptionnels dans le domaine du LLM, provenant d'institutions telles que Meta AI, l'Université de Pékin et l'Université Tsinghua.

1.Apprentissage par renforcement pour l'IA générative : une enquête

Le paradigme actuellement utilisé principalement pour la formation de modèles génératifs est l'estimation du maximum de vraisemblance, qui capture et se rapproche de la distribution des données cibles en réduisant la différence entre la distribution du modèle et la distribution cible. Bien que cette approche établisse avec succès les objectifs de la tâche générative, elle ne peut pas satisfaire toutes les exigences des utilisateurs en matière de modèles génératifs. L'apprentissage par renforcement, en tant qu'alternative compétitive pour injecter de nouveaux signaux de formation en créant de nouveaux objectifs, démontre sa capacité à exploiter les préférences inductives humaines sous de multiples perspectives (par exemple, l'apprentissage contradictoire, les règles conçues manuellement et les modèles de récompense d'apprentissage) pour construire une puissance et une flexibilité. d'un modèle performant. Par conséquent, l’apprentissage par renforcement est devenu un point chaud de la recherche et a repoussé les limites de l’intelligence artificielle générative en termes de conception et d’application de modèles. L'article présente une revue complète résumant les progrès réalisés dans ce domaine au cours des dernières années. Bien qu'il y ait eu quelques rapports d'enquête récents dans différents domaines d'application, l'objectif de cet article est de fournir un aperçu de haut niveau de plusieurs domaines d'application. Nous fournissons une taxonomie rigoureuse dans le domaine avec une couverture adéquate de divers modèles et applications. Notamment, nous étudions également le domaine en croissance rapide des modèles linguistiques à grande échelle. L’article conclut en montrant des orientations potentielles qui pourraient remédier aux limites actuelles du modèle et repousser les limites de l’IA générative.

Lien : https://www.aminer.cn/pub/64ed716d3fda6d7f0658aa83

2. Nougat : compréhension de l'optique neuronale pour les documents académiques

L’article explique que les connaissances scientifiques sont principalement stockées dans des livres et des revues scientifiques, souvent sous forme de PDF. Cependant, le format PDF entraîne une perte d’informations sémantiques, notamment pour les expressions mathématiques. Pour résoudre ce problème, les auteurs proposent un modèle de transformateur visuel appelé Nougat, capable d'effectuer un traitement de reconnaissance optique de caractères (OCR) de documents scientifiques et de les convertir en langage de balisage. En démontrant l'efficacité du modèle sur un nouvel ensemble de données de documents scientifiques, les auteurs montrent que cette approche offre une solution prometteuse pour améliorer l'accessibilité des connaissances scientifiques à l'ère numérique, comblant le fossé entre les documents lisibles par l'homme et lisibles par la machine. texte. Les auteurs publient le modèle et le code pour accélérer les futurs travaux de reconnaissance scientifique de textes.

Lien : https://www.aminer.cn/pub/64ec1b7e3fda6d7f06270245

3. InstructionGPT-4 : un paradigme de 200 instructions pour le réglage fin du MiniGPT-4

Ces modèles acquièrent la capacité de suivre des instructions grâce à un processus de formation en deux étapes consistant à pré-entraîner des paires image-texte et à affiner les données d'instruction du langage visuel. Des recherches récentes montrent que les grands modèles de langage peuvent obtenir des résultats satisfaisants même avec un nombre limité d'instructions de haute qualité suivant les données. Cet article présente InstructionGPT-4, qui est affiné uniquement sur un petit ensemble de données composé de 200 exemples, équivalent à environ 6 % des données de suivi d'instructions utilisées dans l'ensemble de données aligné MiniGPT-4. Les auteurs proposent d’abord plusieurs métriques pour évaluer la qualité des données d’instructions multimodales. Sur la base de ces métriques, ils proposent un sélecteur de données simple mais efficace qui peut automatiquement identifier et filtrer les données de langage visuel de faible qualité. En adoptant cette approche, InstructionGPT-4 surpasse le MiniGPT-4 original dans diverses évaluations (par exemple, réponse visuelle aux questions, préférence GPT-4). Dans l’ensemble, les résultats montrent que des données de réglage fin des instructions, petites mais de haute qualité, peuvent effectivement permettre à de grands modèles de langage multimodaux de générer de meilleurs résultats.

Lien : https://www.aminer.cn/pub/64e6d5bd3fda6d7f0652c7f8

4. Modèles de grands graphiques : une perspective

L'article souligne que dans les domaines de l'intelligence artificielle et de l'apprentissage automatique, les grands modèles ont réalisé des avancées majeures, mais que dans le domaine du graphisme, en particulier dans d'autres domaines tels que le traitement du langage naturel et la vision par ordinateur, les grands modèles n'ont pas encore réalisé les mêmes progrès. succès. Pour faire progresser l'adoption de grands modèles graphiques, cet article présente un document de perspective discutant des défis et des opportunités liés au développement de grands modèles graphiques. Tout d’abord, l’article discute des propriétés souhaitables des grands modèles graphiques. Ensuite, il est discuté en détail sous trois perspectives importantes : la base de représentation, les données graphiques et le modèle graphique. Au sein de chaque catégorie, le document présente brièvement les avancées récentes, met en évidence les défis restants et nos perspectives. Enfin, l'article discute des applications précieuses des grands modèles graphiques. L'article estime que ce document de perspective peut encourager une exploration plus approfondie des grands modèles graphiques, nous rapprochant à terme de l'intelligence artificielle générale (AGI).

Lien : https://www.aminer.cn/pub/64ed716d3fda6d7f0658ab4a

5. Apprentissage profond et informatique efficace pour la vision par ordinateur : une enquête

Même si les modèles d’apprentissage profond ont fait de grands progrès dans les tâches de vision par ordinateur, les ressources informatiques dont ils ont besoin augmentent également, ce qui pose certains défis aux applications du monde réel. Les modèles avancés existants nécessitent souvent de grandes quantités de ressources informatiques, ce qui peut entraîner une consommation d'énergie, une latence ou des émissions de carbone irréalistes dans des scénarios réels. Afin de minimiser le coût de calcul lors de l'inférence, le domaine de la vision par ordinateur a commencé à se concentrer sur l'apprentissage profond efficace sur le plan informatique. La revue fournie dans ce résumé fournit une analyse approfondie de ce domaine en croissance rapide, couvrant quatre aspects principaux : 1) le développement de modèles de base légers, statiques ou dynamiques, pour une extraction efficace de représentations profondes discriminantes ; 2) des structures de réseau spécialisées ou des algorithmes conçus pour des applications spécifiques. tâches de vision par ordinateur ; 3) techniques de compression de modèles d'apprentissage profond ; et 4) stratégies de déploiement de réseaux profonds efficaces sur des plates-formes matérielles. En outre, le résumé propose également une discussion systématique des principaux défis auxquels est confronté le domaine, tels que la conception de l'architecture de réseau, les programmes de formation, l'efficacité pratique et les méthodes de compression de modèles plus réalistes, ainsi que les orientations de recherche futures possibles.

Lien : https://www.aminer.cn/pub/64ed716d3fda6d7f0658a92f

6. LM-Infinite : généralisation simple de la longueur à la volée pour les grands modèles de langage

Cet article est un aperçu de la recherche sur les agents autonomes basés sur de grands modèles de langage. Les recherches antérieures se sont souvent concentrées sur la formation d'agents dans des environnements isolés avec des connaissances limitées, ce qui est loin du processus d'apprentissage humain, ce qui rend difficile pour les agents de parvenir à une prise de décision de type humain. Ces dernières années, les grands modèles de langage (LLM) ont montré un grand potentiel pour atteindre une intelligence au niveau humain en acquérant de grandes quantités de connaissances sur les réseaux. Cela a déclenché un essor de la recherche sur les agents autonomes basés sur le LLM. Pour exploiter pleinement le potentiel du LLM, les chercheurs ont conçu diverses architectures d'agents pour différentes applications. Dans cet article, nous effectuons une revue systématique de ces études dans leur ensemble. Plus précisément, nous nous concentrons sur la construction d'agents basés sur LLM, pour lesquels nous proposons un cadre unifié qui couvre la plupart des travaux précédents. De plus, nous fournissons un aperçu de diverses applications des agents d'intelligence artificielle basés sur LLM dans les domaines des sciences sociales, des sciences naturelles et de l'ingénierie. Enfin, nous discutons des stratégies courantes pour évaluer les agents d’intelligence artificielle basés sur LLM. Sur la base de recherches antérieures, nous proposons également plusieurs défis et orientations futures dans ce domaine.

Lien : https://www.aminer.cn/pub/64f00ff53fda6d7f06eced18

7.LLaSM : Grand modèle de langage et de parole

La plupart des recherches actuelles se concentrent sur les modèles multimodaux visuo-verbaux, qui possèdent de fortes capacités de compréhension et d’exécution d’instructions visuo-verbales. Cependant, les auteurs affirment que la parole est également un moyen important par lequel les humains interagissent avec le monde. Il est donc crucial qu’un assistant universel soit capable de comprendre et de suivre des instructions orthophoniques multimodales. À cette fin, les auteurs proposent un modèle de langage et de parole à grande échelle (LLaSM). LLaSM est un modèle de langage vocal multimodal à grande échelle formé de bout en bout avec des capacités conversationnelles multimodales et la capacité de suivre des instructions vocales et linguistiques. Les premières expériences montrent que LLaSM constitue une manière plus pratique et plus naturelle pour les humains d'interagir avec l'intelligence artificielle. En outre, l’auteur a également publié un vaste ensemble de données d’instructions vocales LLaSM-Audio-Instructions.

Lien : https://www.aminer.cn/pub/64f00ff43fda6d7f06ecec49

8. Réseau de diffusion à double flux pour la génération de texte en vidéo

Il existe un goulot d'étranglement important dans le domaine de la génération texte-vidéo, c'est-à-dire que les vidéos générées présentent souvent des scintillements et des artefacts. Les auteurs proposent un réseau de diffusion à double flux (DSDN) pour améliorer la cohérence des modifications de contenu dans les vidéos générées. Cette méthode fonctionne en concevant deux flux de diffusion, le contenu vidéo et les branches dynamiques, pour s'exécuter séparément dans un espace privé afin de produire des modifications et du contenu vidéo personnalisés, et en utilisant le module d'interaction de conversion croisée conçu par l'auteur entre le contenu et les domaines dynamiques. alignement, ce qui profite à la fluidité de la vidéo générée. En outre, l'auteur présente également des décomposeurs et des combineurs de mouvement pour faciliter la manipulation du mouvement vidéo. Des expériences qualitatives et quantitatives montrent que la méthode est capable de générer de superbes vidéos continues avec moins de scintillement. Par conséquent, le résumé illustre le problème du scintillement et des artefacts dans les vidéos générées et propose une solution avec un réseau de diffusion à deux flux.

Lien : https://www.aminer.cn/pub/64dd9b053fda6d7f0622e793

9. Apprenez aux LLM à personnaliser – Une approche inspirée de l’éducation à l’écriture

L'article propose une nouvelle méthode pour résoudre le problème de la génération de texte personnalisé. Actuellement, la recherche dans ce domaine se concentre principalement sur la résolution de problèmes de génération de texte personnalisé spécifiques à un domaine en concevant des fonctionnalités ou des modèles personnalisés. Cependant, la méthode proposée dans cet article est basée sur la pratique de l'éducation à l'écriture en développant un cadre multi-étapes et multi-tâches pour enseigner de grands modèles de langage (LLM) pour une génération personnalisée. Ce cadre décompose la tâche de génération de texte personnalisé en plusieurs étapes telles que la récupération, le classement, le résumé, la synthèse et la génération. Dans le même temps, la méthode introduit également un environnement multitâche pour améliorer encore la capacité générative du modèle, qui repose sur l'observation pédagogique selon laquelle les capacités de lecture et d'écriture des élèves sont généralement liées. Évalués sur trois ensembles de données publiques, les résultats montrent que la méthode proposée permet d'obtenir des améliorations significatives dans la génération de texte personnalisé par rapport à diverses méthodes de base.

Lien : https://www.aminer.cn/pub/64dd9b053fda6d7f0622e61f

10. OmniQuant : quantification calibrée de manière omnidirectionnelle pour les grands modèles de langage

Les méthodes récentes de quantification post-formation (PTQ) peuvent réduire l'empreinte mémoire et améliorer l'efficacité de calcul du LLM, mais elles conçoivent manuellement les paramètres de quantification, ce qui entraîne des performances inférieures et ne peuvent pas gérer une quantification à bits extrêmement faibles. Pour résoudre ce problème, les auteurs ont introduit une technologie appelée Quantification calibrée omnidirectionnelle (OmniQuant), qui permet d'obtenir de bonnes performances sous différents paramètres de quantification en optimisant efficacement divers paramètres de quantification tout en maintenant l'efficacité de calcul du PTQ.

Lien : https://www.aminer.cn/pub/64ec1b763fda6d7f0626f449

Comment utiliser ChatPaper ?

La méthode d'utilisation de ChatPaper est très simple. Ouvrez la page d'accueil d'AMiner et accédez à la page ChatPaper depuis la barre de navigation en haut de la page ou dans le coin inférieur droit.

insérer la description de l'image ici