UniIVAL : Le premier grand modèle unifié prenant en charge les tâches d'image, de vidéo, d'audio et de texte !

UniIVAL, le premier modèle unifié capable de supporter les tâches image, vidéo et audio-texte !

d4943f845327058559132726c5ad9b6e.png

Entrer dans le groupe NLP —> rejoindre le groupe d'échange NLP

Les grands modèles linguistiques (LLM) font de la quête ambitieuse d'agents généralistes un fantasme.

Un obstacle majeur à la construction de tels modèles généraux est la diversité et l'hétérogénéité des tâches et des modalités.

Une solution prometteuse est l'unification, permettant la prise en charge d'innombrables tâches et modes dans un cadre unifié.

Alors que les grands modèles tels que Flamingo (Alayrac et al., 2022) formés sur des ensembles de données massifs peuvent prendre en charge plus de deux modalités, les modèles unifiés actuels de petite à moyenne taille sont encore limités à 2 modalités, généralement image-texte ou vidéo-texte.

La question que nous nous posons est la suivante : est-il possible de construire efficacement un modèle unifié qui puisse supporter toutes les modalités ?

dbb0f44e1bf1448fd92284c8d1ce2d6b.png

Pour répondre à cette question, nous proposons UniIVAL , une étape vers cet objectif ambitieux.

Sans s'appuyer sur des tailles d'ensembles de données fantaisistes ou sur des milliards de paramètres de modèle, le modèle UniVAL de paramètres d'environ 0,25 milliard transcende les deux modalités, unifiant le texte, les images, la vidéo et l'audio en un seul modèle.

e7eb1ae61c5d6ace09f6487b46354f54.png

Notre modèle est effectivement préformé sur de nombreuses tâches basées sur l'équilibrage des tâches et l'apprentissage multimodal du curriculum.

c68a815c841b62d9314ab7cac1437b13.png ec9850cb2ee66b0b16baaa5d4da6c736.png
Apprentissage curriculaire multimodal (MCL).
c1d11355089003091243a2bc20927399.png
Équilibrage multimodal des tâches
af5db9370e9a0e8380c5a3b043d69bed.png
Transfert de connaissances entre les tâches et les données

UniIVAL montre les performances compétitives des méthodes de pointe existantes dans les tâches d'image et de vidéotexte.

d6cad700f3d604e75fca0c9b8e4dc14d.png
Ajustement des tâches de localisation visuelle sur les données RefCOCO, RefCOCO+ et RefCOCOg
e9512f4da20559434446c9253f1542ae.png
Compréhension image-texte et ajustement des données de tâche de génération

Les représentations de caractéristiques apprises à partir de modèles d'image et de texte vidéo permettent aux modèles d'atteindre des performances compétitives lorsqu'ils sont affinés sur des tâches de texte audio, même s'ils ne sont pas pré-formés sur l'audio.

b651451ad0885287e257f383f6c26d7a.png
Spinner de questions-réponses vidéo
7ffe246e51c8f951b0bd707c3dfbcc00.png
Réglage fin du sous-titrage vidéo
4705dcaf637869ba5e044b690aecb5df.png
Ajustement de la parole au texte
a53dc58ef96c3832000f5fcf525500e4.png
Évaluation sans ajustement
162071be845eacd42695c037a8ae08c1.png
Évaluation zéro coup

Bénéficiant du modèle unifié, nous présentons une nouvelle étude de fusion de modèles multimodaux via l'interpolation de poids de modèles entraînés sur différentes tâches multimodales, montrant leurs avantages en particulier pour la généralisation hors distribution.

5168204bb184091341f9d35bb4a2bc02.png 67b87b4c615977dcaf1d972064405b3f.png

Enfin, nous encourageons l'unification en démontrant la synergie entre les tâches.

Résumer

Dans cette étude, nous introduisons UniIVAL, le premier modèle unifié capable de prendre en charge des tâches d'image, de vidéo et de texte audio.

Nous le faisons avec un modèle relativement petit avec des paramètres d'environ 0,25 milliard sur un ensemble de données relativement petit.

Notre système unifié est pré-formé multitâche avec de multiples avantages. Il exploite la synergie entre différentes tâches et modalités, permet une formation plus efficace des données et présente une forte capacité de généralisation à de nouvelles modalités et tâches.

L'aspect unificateur de notre stratégie ouvre la voie à des techniques intéressantes de fusion de modèles affinés sur différentes tâches multimodales : nous démontrons qu'en plus de la pré-formation multitâche, la diversité des tâches peut être davantage exploitée par la fusion par interpolation de poids.

En fin de compte, nous espérons que notre travail inspirera la communauté des chercheurs et accélérera les progrès dans la création d'agents assistants généralistes indépendants des modalités.


4b29f5542c7919a9c16c3ef67da8b414.png

Entrer dans le groupe NLP —> rejoindre le groupe d'échange NLP

Je suppose que tu aimes

Origine blog.csdn.net/qq_27590277/article/details/132095170
conseillé
Classement