Présentation de la maquette visuelle

L'article de dix mille caractères vous amènera à interpréter pleinement le modèle visuel à grande échelle et à détailler l' excellent travail de modèle visuel à grande échelle qui a émergé récemment https://mp.weixin.qq.com/s/jLQaguLejx9zXjZjaJWx- QCompréhension approfondie du modèle de langage visuel - Sachant que l'apprentissage humain est essentiellement multimodal, car l'utilisation conjointe de plusieurs sens nous aide à mieux comprendre et analyser de nouvelles informations. Naturellement, les dernières avancées en matière d'apprentissage multimodal s'inspirent de l'efficacité de ce processus d'apprentissage humain pour créer des modèles pouvant utiliser des images, des vidéos, du texte… https://zhuanlan.zhihu.com/p/609886192 J'ai déjà pensé que le le modèle multimodal devrait aligner complètement l'image sur LLM, mais maintenant je pense de plus en plus que dans des tâches de production spécifiques, il peut être préférable de convertir d'abord la modalité en texte par la voix et l'image, puis de l'envoyer à LLM, llm ne le fait pas nécessairement avoir une relation directe avec d’autres modalités.

Modèle visuel de base :

1. Infrastructures

  • Architecture à double encodeur : où des encodeurs séparés sont utilisés pour traiter les modalités visuelles et textuelles, et les sorties de ces encodeurs sont ensuite optimisées via une fonction objective.

  • Architecture fusionnée : comprend un encodeur fusionné supplémentaire qui prend les représentations générées par les encodeurs de vision et de texte et apprend la représentation fusionnée.

  • Architecture encodeur-décodeur : elle se compose d'un modèle de langage basé sur un encodeur-décodeur et d'un encodeur visuel.

  • Architecture LLM adaptative : utilise un grand modèle de langage (LLM) comme composant principal et emploie un encodeur visuel pour convertir les images dans un format compatible avec le LLM (alignement modal).

2. Fonction objectif

2.1 Apprentissage contrasté

Apprenant du texte d'image non étiqueté, le clip utilise la perte ITC (contraste image-texte), en plus de l'ITM (correspondance image-texte), SimCLR et diverses variantes ITC FILIP Loss, TPC Loss, RWA, MITC, UniCL, RWC

2.2 Apprentissage génératif

Modèle de probabilité conditionnelle, connaissant le jeton ou l'image précédente pour prédire le jeton suivant. MLM, LM et Cap sont principalement associés aux modèles de langage.

3. Pré-formation

3.1 Ensemble de données de pré-formation

Le cœur du modèle de langage visuel est constitué de données à grande échelle, qui peuvent être divisées en :

  1. Données image-texte : telles que CLIPcelles utilisées WebImageText, etc. Ces données sont généralement extraites du Web et passent par un processus de filtrage pour supprimer les points de données bruyants, inutiles ou nuisibles.

  2. Données partiellement pseudo-étiquetées : étant donné que les données de formation à grande échelle ne sont pas disponibles sur le Web et sont coûteuses à collecter, il est possible de faire appel à un bon enseignant pour convertir des ensembles de données image-texte en ensembles de données de description de masque, tels que GLIPet SA-1B.

  3. Combinaison d'ensembles de données : certaines œuvres combinent directement des ensembles de données de vision de référence. Ces travaux combinent des ensembles de données avec des paires image-texte, telles que des sous-titres et des réponses visuelles aux questions. Certains travaux utilisent également des ensembles de données autres que des images et du texte et utilisent une ingénierie d'indices basée sur des modèles pour convertir les étiquettes en descriptions.

3.2 Mise au point

Le réglage fin est principalement utilisé sous trois aspects :

  1. améliorer les performances du modèle sur des tâches spécifiques (par exemple, détection d'objets en monde ouvert, Grounding-DINO);

  2. Améliorer les performances du modèle sur une capacité spécifique (par exemple localisation visuelle) ;

  3. Des conseils sur le réglage des modèles pour résoudre différentes tâches de vision en aval (par exemple InstructBLIP).

Ce qui précède est instructBLIP, en fait, il s'agit de convertir l'image en une requête que llm peut mieux comprendre.

3.3 Projet d'invite

La plupart des ensembles de données visuelles sont constitués d'images et d'étiquettes de texte correspondantes. Pour traiter des ensembles de données visuelles avec des modèles de langage visuel, certains travaux ont exploité l'ingénierie d'indices basée sur des modèles,

text_descriptions = [f"This is a photo of a {label}" for label in cifar100.classes]  
text_tokens = clip.tokenize(text_descriptions).cuda()  

4. Modèle de base basé sur des invites textuelles

4.1 Méthode basée sur l'apprentissage contrastif

clip donne un espace d'intégration multimodal de N paires image-texte. Entraîné par perte d'entropie croisée symétrique pour minimiser la similarité cosinus des incorporations de N paires image-texte correctes et maximiser la similarité cosinus de N²-N paires incorrectes.

4.1.1 Méthode de comparaison basée sur un modèle général

ALIGN, utilise un ensemble de données bruitées de plus d'un milliard de paires image-texte sans filtrage, une architecture simple à double encodeur apprend à aligner les représentations visuelles et linguistiques des images et du texte en utilisant une perte de contraste, et fonctionne bien tant que la taille des données est grande, méthode simple, effet sota. 

Florence, commençant par une pré-formation sous forme de clip, s'étend à des modèles avec 3 têtes d'adaptation différentes, capables de gérer différents espaces, temps et modalités.

FILIP propose une méthode de post-interaction multimodale pour capturer un alignement sémantique à granularité fine. La perte FILIP maximise la similarité des jetons entre les intégrations visuelles et textuelles, aidant à modéliser des interactions fines entre les deux modalités sans sacrifier l'efficacité d'inférence de CLIP.

4.1.1.2 Apprentissage contrastif basé sur un masque

FLIP, FLIP est une méthode simple et plus efficace de formation de CLIP. Son idée est très simple. Comme le montre la figure, il s'agit d'introduire l'opération de masque de MAE dans CLIP et de masquer aléatoirement les fragments d'image avec un taux de masque élevé. Encodez uniquement les fragments visibles. La différence est que le contenu de l’image masquée ne sera pas reconstruit ici. De plus, le même processus est effectué pour le texte, qui est quelque peu similaire à BERT mais différent. BERT les remplace par des jetons de masque appris. Ce calcul clairsemé peut réduire considérablement le coût de l'encodage du texte.

MaskCLIP souligne qu'une image est un signal continu et à granularité fine, que les descriptions linguistiques peuvent ne pas exprimer pleinement. Par conséquent, MaskCLIP apprend les caractéristiques sémantiques locales en occultant aléatoirement les images et en utilisant l'auto-distillation basée sur Mean Teacher. 

4.1.2 La méthode de positionnement du modèle de base basée sur la vision

La figure ci-dessus montre que le clip original est efficace pour les tâches de positionnement visuel, en particulier pour les tâches de positionnement au niveau des pixels telles que la segmentation sémantique.

RegionCLIP Étend considérablement CLIP pour apprendre des représentations visuelles au niveau de la région qui prennent en charge un alignement précis entre les régions d'image et les concepts textuels, permettant ainsi des tâches de raisonnement basées sur la région, notamment la détection d'objets à tir nul et la détection d'objets à vocabulaire ouvert.

CRIS permet à CLIP d'apprendre des informations au niveau des pixels en introduisant un décodeur de langage visuel et une perte de contraste texte-pixel.

Grounding DINO, qui exploite un puissant modèle pré-entraîné et le modifie via un apprentissage contrastif pour améliorer l'alignement linguistique.

Dans l'ensemble, dans la série de recherches fondamentales sur la vision ci-dessus, ces méthodes tentent d'améliorer les techniques de clipage telles que l'apprentissage contrastif et l'apprentissage des masques.

4.2 Méthodes génératives

Un paradigme multimodal combiné à un grand modèle de langage :

  • Apprendre des entrées multimodales avec contexte : par exemple,  Frozen les méthodes combinent des encodeurs d'images avec des encodeurs  d'images LLM , sans  LLM pondérations mises à jour, et entraînent plutôt des encodeurs visuels sur des ensembles de données avec des annotations d'images. De même, Flamingo le modèle prend un ensemble fixe de modèles de vision et de langage pré-entraînés et Perceiver Resamplerles connecte via .

  • Utiliser LLMcomme interface générale pour d'autres modalités : si MetaLMle modèle adopte une structure semi-causale, la connexion de l'encodeur bidirectionnel au décodeur via la couche de connexion peut permettre un réglage fin multitâche et un apprentissage zéro-shot ajusté par les instructions. De plus, KOSMOSla série LLMintègre également la capacité d'apprentissage multimodal sur Internet.

  • Version open source du modèle : par exemple OpenFlamingo, il s'agit Flamingod'une version open source du modèle entraînée sur un nouvel ensemble de données multimodales.

Formation à finalité générale :

  • Modélisation simplifiée du langage visuel : si vous êtes formé à l'aide de l'objectif de SimVLMmodélisation du langage préfixe ( ), aucune architecture ou formation spécifique à une tâche n'est requise et d'excellentes performances peuvent être obtenues sur plusieurs tâches de langage visuel.PrefixLM

  • Reconstruction et alignement de masques : par exemple MaskVLM, modélisation du langage avec reconstruction de masque conjointe, où la partie masquée d'une entrée est reconstruite à partir d'une autre entrée non masquée, alignant efficacement les deux modalités.

  • Modèle de langage visuel modulaire : par exemple mPLUG-OWL, composé d'un encodeur d'image, d'un résumé d'image et d'un gel LLM, permettant un dialogue et une compréhension multimodaux grâce à une formation en deux étapes.

La méthode ci-dessus est appelée générative car elle ajoute des capacités visuelles au LLM en entraînant des tâches de génération de langage dans des conditions visuelles.

4.3 Méthodes hybrides basées sur l'apprentissage contrastif et génératif

4.3.1 Le modèle de base de l’apprentissage général vision-langage

  • UNITER: Une méthode qui combine des objectifs génératifs (par exemple, modélisation de langage masqué et modélisation de régions masquées) et contrastifs (par exemple, correspondance image-texte et alignement de régions de mots) pour des tâches de langage visuel hétérogènes.

  • Pixel2Seqv2: Unifie quatre tâches de vision principales sous la forme d'une interface pixel-séquence, entraînée à l'aide d'une architecture encodeur-décodeur.

  • Vision-Language: utilisez des modèles de langage d'encodeur-décodeur pré-entraînés comme BART ou T5 pour apprendre différentes tâches de vision par ordinateur.

4.3.2 Architecture générale

  • Contrastive Captioner (CoCa): Combinant la perte contrastive et la perte de légende générative, il peut bien fonctionner sur divers ensembles de données visuelles.

  • FLAVA: Applicable aux tâches unimodales et multimodales, formé avec une série de fonctions de perte pour bien performer sur les tâches de vision, de langage et de vision-langage.

  • BridgeTower: combine les informations de différents niveaux de décodeurs unimodaux sans compromettre la capacité à effectuer des tâches unimodales.

  • PaLI: Un modèle de vision-langage modulaire multilingue co-extensible pour les tâches unimodales et multimodales.

  • X-FM: Un nouveau modèle de base comprenant des encodeurs de langage, de vision et de fusion, formés en combinant des objectifs et de nouvelles techniques.

4.3.3 Paradigme du cadre BLIP

  • BLIP: Utiliser efficacement des ensembles de données image-texte en utilisant les capacités de génération et de compréhension, en adoptant Multimodal mixture of Encoder-Decoder (MED)des architectures.

  • BLIP-2: Alignement intermodal informatiquement efficace en interrogeant les transformateurs.

4.3.4 Extraction de fonctionnalités basée sur les instructions et solution de tâches multimodales

  • InstructBLIP: Utilise un encodeur visuel, Q-Formeret LLM, pour la formation via une extraction de fonctionnalités visuelles tenant compte des instructions. Utilisation efficace de modèles pré-entraînés :

  • VPGTrans: Fournit un moyen efficace de transférer des encodeurs de vision entre LLM.

  • TaCATaCA : Un adaptateur appelé est mentionné  , mais n'est pas décrit plus en détail.

4.3.4 Méthode basée sur le Visual Grounding

  • ViLD: Cette approche utilise un système de détection d'objets à vocabulaire ouvert en deux étapes pour extraire des connaissances à partir d'un modèle de classification à vocabulaire unique pré-entraîné. Il s'agit d'un  modèle de langage visuel RPN similaire  CLIP , utilisé pour  Mask-RCNN créer des propositions d'objets, puis extraire des connaissances dans des détecteurs d'objets.

  • UniDetector: Cette méthode vise la détection générale d'objets pour détecter de nouvelles classes dans le monde ouvert. Il utilise une méthode de formation en trois étapes, comprenant RegionCLIPune pré-formation similaire à celle que nous avons mentionnée ci-dessus, une formation sur des ensembles de données hétérogènes et un étalonnage de probabilité pour la détection de nouvelles catégories. UniDetector établit de nouvelles normes pour la détection d'objets à vocabulaire volumineux et fermé.

  • X-Decoder: fonctionnent à trois niveaux de granularité (niveau image, niveau objet et niveau pixel) pour exploiter la synergie des tâches. Il repose sur  Mask2Formerl’utilisation de fonctionnalités d’image multi-échelles et de deux ensembles de requêtes pour décoder les masques de segmentation, facilitant ainsi diverses tâches. Il présente une forte transférabilité dans un large éventail de tâches de segmentation et de langage visuel.

UniDétecor

4.4 Modèle de langage visuel basé sur le dialogue

GPT4

miniGPT4, qui se compose d'un grand modèle de langage pré-entraîné Vicuna et de composants visuels Vit-G et Qformer. Le modèle est d'abord formé sur des exemples multimodaux, puis affiné sur des paires d'images et de textes de haute qualité.

XrayGPT : basé sur visualglm

La lave

Adaptateur LLaMA v2

5. Modèle de base basé sur des repères visuels

5.1 Modèle de base de vision

CLIPSeg : les requêtes visuelles et textuelles sont généralement associées aux encodeurs de clips correspondants pour obtenir des intégrations, qui sont ensuite incluses dans le décodeur clipseg.

AideGPT

SAM 

SEMBLER

5.2 Amélioration et application du SAM

FastSAM, MobileSAM, RefSAM, HQSAM

5.3 Modèle généraliste

Comment utiliser l'apprentissage contextuel pour s'adapter rapidement à diverses tâches avec différentes invites et exemples, à partir d'un exemple d'invite, la tâche correspondante peut être complétée.

Peintre, après la formation, le peintre peut déterminer quelle tâche effectuer lors de l'inférence en fonction des images appariées entrée/sortie de la tâche avec la même condition que l'entrée.

VisionLLM peut aligner les modalités de vision et de langage pour résoudre des tâches ouvertes. Le modèle de vision est utilisé pour apprendre les caractéristiques de l'image. Ces caractéristiques de l'image sont transmises au tokeniseur d'image guidé par le langage avec les instructions de langage décrivant l'image. La sortie de l'image tokenizer est fourni avec les instructions de langage. Donne un décodeur de tâches ouvert basé sur LLM.

6. Modèle de base complet

6.1 Modèle de vision de base basé sur une architecture hétérogène

Alignez les modalités appariées image-texte, vidéo-audio, profondeur d'image, etc.

6.1.1 CLIP et alignement modal hétérogène

CLIP2Video : Transfert de la sémantique spatiale du modèle de clip image-texte aux problèmes de récupération de texte vidéo.

AudioCLIP : fonctionne avec l'audio.

6.1.2 Modèles multimodaux pour l'apprentissage des représentations partagées

Liaison d'image :

MACAW-LLM

6.1.3 Traitement de la vidéo et du texte long

QU'EST-CE

Vallée

6.2 Modèle de vision de base basé sur des agents

Le modèle de vision de base basé sur des agents combine en détail le LLM avec des modalités de capteurs visuels et physiques de la vision du monde réel, non seulement pour la compréhension du texte, mais également pour l'interaction et la manipulation avec la vision du monde réel, en particulier dans la manipulation et la navigation robotiques.

Je suppose que tu aimes

Origine blog.csdn.net/u012193416/article/details/132301488
conseillé
Classement