Apprentissage de la représentation (Apprentissage de la représentation) Partie 1 - Texte prétexte

"Intelligence artificielle et apprentissage automatique" du professeur Manolis Kellis (directeur de la biologie computationnelle du MIT)

Le contenu principal est la partie 1 de l'apprentissage par représentation - texte prétexte (tâche d'agent/pré-tâche/tâche auxiliaire, etc.), qui peut être comprise comme une tâche indirecte conçue pour réaliser une tâche de formation spécifique.

Y compris ces parties : structure déduite, prédiction de conversion, reconstruction, utilisation du temps, multimodalité, classification des instances (voir catalogue en anglais)

Ci-dessous le lien vers le tube :

Modèles génératifs, réseaux contradictoires GAN, auto-encodeurs variationnels VAE, apprentissage des représentations

Apprentissage de la représentation

Apprentissage de la représentation : tâches de prétexte, espaces d'intégration, représentation des connaissances, prédiction du mot suivant, prédiction du placement d'image, auto-encodeurs variationnels.

Apprentissage par représentation : Il s'agit d'une approche d'apprentissage automatique qui vise à identifier automatiquement de meilleures façons de représenter les données d'entrée dans un algorithme d'apprentissage. L’idée est que les tâches en aval telles que la classification ou la régression devraient devenir plus faciles grâce à une représentation correcte des données.

Tâches d'hypothèse : dans l'apprentissage auto-supervisé, les tâches d'hypothèse sont conçues comme des tâches auxiliaires, dans lesquelles le modèle apprend des représentations de fonctionnalités riches à partir de données non étiquetées, qui peuvent ensuite être utilisées pour la tâche principale . Des exemples de tâches hypothétiques consistent à prédire le mot suivant dans une phrase, à compléter une image ou à coloriser des images en noir et blanc.

Espaces d'incorporation : il s'agit d'espaces vectoriels de grande dimension dans lesquels les objets similaires sont proches les uns des autres et les objets différents sont éloignés les uns des autres. Ils sont souvent utilisés pour représenter des variables catégorielles ou des objets discrets tels que des mots (dans Word2Vec ou GloVe), des phrases (dans Sentence-BERT) ou même des graphiques (dans les réseaux de neurones graphiques).

Représentation des connaissances : Il s'agit de la partie du domaine de l'intelligence artificielle qui se concentre sur la représentation d'informations sur le monde sous une forme que les systèmes informatiques peuvent utiliser pour résoudre des tâches complexes, telles que diagnostiquer une condition médicale ou mener une conversation en langage naturel. Il comprend des représentations de l'action, du temps, de la causalité et de la croyance, entre autres.

Prédiction du mot suivant : Il s'agit d'une tâche de modélisation du langage où le modèle prédit le mot suivant dans une phrase en fonction des mots précédents. Il est couramment utilisé pour entraîner des modèles d'apprentissage profond, tels que des Transformers (tels que GPT-3 ou GPT-4), dans le but de prédire le prochain jeton d'une séquence.

Prédiction de la position de l'image : il peut s'agir d'une tâche dont le but est de prédire la position ou la disposition correcte d'une image en fonction d'un certain contexte. Par exemple, dans le cas d’une série de bandes dessinées à laquelle il manque un panneau, la tâche consisterait à prédire l’emplacement correct du panneau manquant. Ce type de tâche nécessite une bonne compréhension du récit visuel et du contexte.

Auto-encodeurs variationnels (VAE) : ce sont des modèles génératifs qui utilisent des réseaux de neurones pour une inférence bayésienne efficace de modèles probabilistes complexes et insolubles. Les VAE disposent d’une architecture spécifique qui leur permet de générer de nouvelles données, similaires aux données de formation. Ils sont particulièrement utiles pour des tâches telles que la détection d’anomalies, le débruitage et la génération de nouveaux échantillons.

L'apprentissage profond est un cadre puissant pour comprendre et apprendre les représentations de données. L’idée clé est l’apprentissage des représentations, qui traduit les données brutes sous une forme plus significative et plus facile à utiliser pour des tâches telles que la classification.

  • Un modèle d'apprentissage profond couramment utilisé est celui des réseaux de neurones convolutifs (CNN), qui sont souvent utilisés pour les tâches de classification d'images. Un CNN typique comprend plusieurs couches telles que des couches convolutives, des couches d'activation ReLU (unité linéaire rectifiée), des couches de pooling et des couches entièrement connectées.
    • Dans la couche de convolution, le modèle extrait les caractéristiques de l'image d'entrée via des opérations de convolution, c'est-à-dire l'interaction entre les pixels de l'image dans le champ récepteur local.
    • La couche d'activation ReLU définit toutes les valeurs négatives sur 0 pour introduire une non-linéarité.
    • La couche de pooling (telle que le pooling maximum) est utilisée pour réduire la taille spatiale du modèle et augmenter la robustesse et l'efficacité de calcul du modèle.
    • La couche entièrement connectée se trouve à la fin du réseau et est utilisée comme classificateur pour analyser les caractéristiques précédemment extraites et produire les résultats de prédiction.

La principale différence entre l'apprentissage profond et les réseaux de neurones traditionnels est qu'il combine les deux tâches d'extraction de caractéristiques et de classification : la tâche de classification pilote l'extraction de caractéristiques . Il s’agit d’un modèle extrêmement puissant et généraliste, mais il faut encore continuer à innover car le domaine en est encore à ses balbutiements .

Les nouveaux domaines d'application (tels que ceux au-delà des images) peuvent avoir des structures qui ne peuvent pas être capturées ou exploitées par les architectures actuelles . Par exemple, la génomique, la biologie et les neurosciences peuvent contribuer au développement de nouvelles architectures.

Quand nous disons que les nouveaux domaines d'application peuvent avoir des structures qui ne peuvent pas être capturées ou exploitées par les architectures actuelles, c'est comme si vous disposiez d'une boîte à outils super avancée avec toutes sortes d'outils comme des marteaux, des tournevis, des clés, etc. qui sont utiles pour réparer des meubles ou les voitures peuvent être très efficaces. Mais si votre défi actuel est de préparer un bon dîner, vous aurez peut-être besoin de nouveaux outils comme des casseroles, des couteaux et des fours qui ne figurent peut-être pas déjà dans votre boîte à outils.

De même, nos architectures d'apprentissage en profondeur actuelles, telles que les réseaux de neurones convolutifs ou les réseaux de neurones récurrents, fonctionnent extrêmement bien sur les données d'image, audio et textuelles. Cependant, lorsque nous essayons d'appliquer l'apprentissage profond à de nouveaux domaines, tels que la génomique (analyse des séquences d'ADN), la biologie (telle que la prédiction de la structure des protéines) ou les neurosciences (telle que l'analyse des ondes cérébrales), nous pouvons constater que nos outils existants ne le font pas. ce n'est pas tout à fait en forme. Nous devrons peut-être développer de nouvelles architectures d’apprentissage en profondeur capables de mieux comprendre et exploiter les structures de données dans ces domaines.

A titre d'exemple, une séquence d'ADN peut être considérée comme une longue chaîne composée de quatre gènes (A, T, C, G). Bien que nous puissions traiter ce type de données de la même manière que le texte, les séquences d’ADN ont des structures et des propriétés particulières (telles que trois gènes codant pour un acide aminé) qui ne sont peut-être pas pleinement exploitées par les architectures actuelles d’apprentissage profond. Par conséquent, nous devrons peut-être développer de nouvelles architectures, notamment pour capturer et exploiter ces propriétés.

  • Apprentissage par représentation dans l’apprentissage non supervisé
  • Comment apprendre des représentations utiles à partir de données sans données étiquetées .
    • Prédire l'avenir : par exemple en utilisant un réseau neuronal récurrent (RNN) ou en prédisant l'image suivante d'une séquence vidéo. Dans ce contexte, les prédictions futures deviennent un moyen d’apprendre les représentations des données.
    • Compression : un auto-encodeur est un type de réseau neuronal qui tente de reconstruire son entrée à partir d'une représentation de faible dimension (appelée espace latent ) et peut donc également être considéré comme un type de compression.
    • Tâche de prétexte : Il s'agit d'une tâche de construction qui vise à favoriser l'apprentissage de représentations utiles, plutôt que de résoudre directement la tâche qui nous intéresse. Par exemple, prédire les parties manquantes d'une image, prédire l'angle de rotation d'une image, coloriser une image en noir et blanc, suréchantillonner une image basse résolution, etc.
    • Capture des distributions de paramètres (mutation) : les auto-encodeurs variationnels (VAE) tentent d'apprendre une distribution de probabilité latente des données d'entrée de telle sorte que les représentations latentes échantillonnées via cette distribution puissent générer de nouvelles données similaires aux données d'entrée.
    • **Donner du sens aux paramètres de l'espace latent :** L'espace latent peut être conçu de telle sorte que chaque dimension ait une signification spécifique, qui peut être orthogonale, explicite ou réglable.
    • **Utilisez un deuxième réseau pour la formation : **Les réseaux de confrontation générés (GAN) comprennent un réseau de génération et un réseau discriminant. Grâce à la formation à la confrontation des deux, le réseau de génération peut générer de meilleures données fausses.
  • **Possibilités infinies :** Ce qui précède ne sont que quelques méthodes existantes, et il existe des possibilités infinies dans ce domaine qui n'attendent que nous pour les explorer. Vos idées innovantes peuvent ouvrir de nouvelles voies.

En général, le sujet de ce passage est l'apprentissage des représentations sans données étiquetées via un apprentissage non supervisé ou un apprentissage auto-supervisé. Cette approche d'apprentissage nous fournit un outil puissant pour acquérir des connaissances utiles à partir de grandes quantités de données non étiquetées.

Cet article concerne la tâche Prétexte

Dans le domaine de l'apprentissage profond, l'apprentissage auto-supervisé est une forme d'apprentissage non supervisé dans lequel les signaux d'entraînement (appelés étiquettes) sont générés à partir des données d'entrée elles-mêmes plutôt que fournies par des humains. Le but de cette approche est d’apprendre de bonnes représentations de données sans se soucier du résultat de la tâche proxy.

Les tâches proxy sont une mise en œuvre de l'apprentissage auto-supervisé en construisant une tâche capable de dériver des signaux de supervision à partir des données d'entrée elles-mêmes. En fait, nous ne nous soucions pas du résultat de la tâche de l'agent elle-même, nous nous soucions seulement de savoir si elle peut encourager le modèle à apprendre une représentation de données utile (comme vraiment reconnaître un chat sur une photo).

Les tâches des agents peuvent être grossièrement divisées dans les catégories suivantes :

  1. **Inférence de structure :** Ce type de tâche nécessite que le modèle déduise une sorte de structure ou de modèle à partir des données d'entrée.
  2. **Prévision de transformation :** Ce type de tâche nécessite que le modèle prédise certaines transformations des données, telles que la rotation, la translation ou la mise à l'échelle.
  3. **Reconstruction :** Ce type de tâche nécessite que le modèle reconstruise son entrée, généralement après une sorte de transformation (telle que l'ajout de bruit). Les encodeurs automatiques sont des exemples de telles tâches.
  4. **Exploiter le temps :** Dans ce type de tâche, le modèle doit comprendre l'ordre chronologique des données ou prédire des événements futurs. Par exemple, dans le traitement du langage naturel, un modèle peut avoir besoin de prédire le mot suivant.
  5. **Tâches multimodales :** ces tâches impliquent plusieurs types de données, tels que des images et du texte, et l'objectif est d'apprendre des représentations à travers les modalités.
  6. **Classification des instances :** Il s'agit d'un type spécial de tâche dans lequel chaque instance de données est traitée comme sa propre classe.

Il convient de noter qu’il ne s’agit là que d’une classification approximative des tâches des agents et que certaines tâches peuvent appartenir à plusieurs catégories.

Inférer une structure



  1. Prédiction contextuelle : il s'agit d'une méthode d'apprentissage auto-supervisée dans laquelle le modèle apprend à prédire une partie de l'entrée à partir d'autres parties de l'entrée. C'est un moyen utile de comprendre des parties ou des caractéristiques d'objets dans une image. Cependant, cette approche suppose que les images d'entraînement sont prises dans une orientation canonique (standard), ce qui n'est pas toujours vrai.
  2. Inconvénients de la prédiction contextuelle : La prédiction contextuelle présente certains problèmes.
    • Premièrement, cela suppose que toutes les images sont prises selon une orientation canonique, qui peut ne pas correspondre à la réalité. Par exemple, lors de la prise de vue de nuages, il n’y a pas de direction standard.
    • Utilisez le patch (petite partie) pour vous entraîner, mais souhaitez apprendre la représentation globale.
    • Deuxièmement, ces modèles « trichent » souvent en utilisant des indices qui n'étaient pas disponibles au moment du test, c'est pourquoi des précautions particulières doivent être prises lors de la conception de ces modèles. Il existe un écart entre la formation et l’évaluation en raison de différences dans la distribution des données et peut-être d’un manque de distinction fine dans la formation.
    • Il peut y avoir des limites si le classificateur n'est pas formé avec des exemples négatifs (des exemples qu'on n'essaie pas de reconnaître) provenant d'autres images. Par exemple, il pourrait ne pas être en mesure de distinguer les yeux de chat des yeux de chien sans exemples négatifs.
    • Petit espace de sortie : cela semble faire référence à des problèmes pour lesquels le modèle prédit un nombre limité de classes ou de cas. Dans cet exemple, le modèle ne peut distinguer que 8 emplacements différents, ce qui peut limiter l'efficacité du modèle.

Ce qui suit est dû au fait que mon écoute personnelle est un peu abstraite et que certaines des questions soulevées et les réponses à gpt4 peuvent être ignorées. En fait, cela signifie que l'apprentissage des représentations apprend automatiquement de nombreuses représentations (fonctionnalités), mais cette fonctionnalité est plus avancée et a beaucoup plus de potentiel que les personnes créant des fonctionnalités une par une dans l'apprentissage automatique.

Apprentissage de représentations visuelles non supervisées par prédiction de contexte

Concepts de base de l'apprentissage des représentations visuelles non supervisé : L'apprentissage des représentations visuelles non supervisé via la prédiction du contexte est une méthode d'apprentissage auto-supervisée dont l'objectif est de permettre aux modèles d'apprentissage automatique d'apprendre des représentations utiles à partir d'images d'entrée non étiquetées. Cette méthode d'apprentissage fonctionne en prédisant le contexte d'une image, généralement en prédisant une partie de l'image pour comprendre d'autres parties de l'image.

Prenons un exemple simple pour illustrer le concept :

Supposons que vous ayez une photo d'un chat jouant avec un ballon. Nous découpons cette photo en plusieurs parties, puis supprimons au hasard l'une des parties, et notre tâche est de prédire quelle devrait être la partie supprimée.

Dans cette tâche, le modèle doit comprendre divers indices contextuels, tels que la forme du chat, la couleur et la forme de la balle, ainsi que leurs positions relatives dans l'image. De cette façon, le modèle peut apprendre les représentations visuelles des chats et des balles ainsi que leurs relations spatiales. De cette façon, même s'il rencontre de nouvelles images de chats ou de balles au moment du test, le modèle peut les comprendre et les classer en fonction des représentations qu'il a apprises.

C’est le concept de base de l’apprentissage des représentations visuelles non supervisé par prédiction du contexte. Notez qu'il s'agit d'une méthode d'apprentissage auto-supervisée, c'est-à-dire qu'elle apprend sans étiquettes humaines et peut donc gérer de grandes quantités de données non étiquetées.

  • La deuxième question représente l'espace

« L'espace de représentation » dans l'apprentissage automatique fait généralement référence à la représentation interne d'un modèle des données d'entrée. Dans CNN, les couches convolutives et les couches de pooling (le cas échéant) traitent l'image d'entrée et génèrent une carte de caractéristiques complexe. Cette carte de fonctionnalités est la représentation de l'image d'entrée dans le modèle. Ces représentations codent de nombreuses informations sur l'image, telles que la couleur, la texture, la forme, etc.

Dans l'apprentissage de représentations visuelles non supervisé, l'objectif du modèle est de trouver une représentation la plus utile pour les tâches prédictives telles que la prédiction de contexte. Dans ce cas, nous espérons que l’espace de représentation du modèle pourra capturer les caractéristiques et structures importantes de l’image.

En prenant CNN comme exemple, disons que nous utilisons la tâche de prédiction de contexte pour former un CNN. Au cours de la formation, les couches convolutives du CNN apprennent à extraire des caractéristiques utiles des images, qui sont codées dans des cartes de caractéristiques (c'est-à-dire des espaces de représentation). Après la formation, un CNN devrait être capable de générer des représentations utiles pour les tâches de prédiction contextuelle.

Il s’agit de la relation entre l’apprentissage de la représentation visuelle non supervisée et l’espace de représentation. En apprentissage non supervisé, notre objectif est de trouver une représentation utile pour les tâches de prédiction.

  • La troisième question comment quantifier l'espace de représentation

L'espace de représentation est quantifiable. Dans un réseau neuronal convolutif (CNN), l'espace de représentation fait généralement référence à la sortie d'une ou plusieurs couches du réseau, qui sont une sorte de codage ou de représentation de l'entrée originale (comme une image). Ces représentations sont généralement des vecteurs numériques à plusieurs dimensions et sont donc quantifiables.

Spécifique à une nouvelle image, l’espace de représentation fonctionne ainsi :

  1. Tout d’abord, de nouvelles images sont introduites dans le CNN formé.
  2. La couche convolutive de CNN commencera à traiter l'image et chaque couche extraira certaines caractéristiques de l'image. Les premières couches peuvent extraire certaines caractéristiques de base telles que les bords et les couleurs, tandis que les couches plus profondes peuvent extraire des caractéristiques plus complexes telles que des parties ou des ensembles d'objets.
  3. Ces caractéristiques extraites constituent la représentation de la nouvelle image dans le modèle, c'est-à-dire des points dans « l'espace de représentation ». Ces représentations sont généralement introduites dans des couches entièrement connectées ou dans d'autres types de couches pour un traitement ultérieur afin d'accomplir la tâche de prédiction finale (telle que la classification).

À titre d'exemple, disons que vous disposez d'un CNN pour faire la distinction entre les chats et les chiens. Vous lui donnez une nouvelle photo d'un chat. La couche convolutive de CNN extraira diverses caractéristiques de l'image et générera une représentation. Cette représentation capture de nombreuses informations sur le chat sur la photo, telles que sa forme, sa couleur, sa texture, etc. Ensuite, cette représentation est introduite dans la couche entièrement connectée, qui prédit l'étiquette « chat » à partir de cette représentation. C’est ce que fait l’espace de représentation lorsqu’il s’agit de nouvelles images.

  • Problèmes de puzzle : encore plus compliqués

Prédiction des transformations

Prédiction de rotation

  • Prédisez de combien de degrés l'image sera tournée, le modèle est entraîné pour prédire de combien de degrés l'image sera tournée

Tout d’abord, l’image est tournée de manière aléatoire d’un angle (tel que 90°, 180°, 270°), puis entrée dans un réseau neuronal (tel que ConvNet), et la tâche du modèle est de prédire cet angle de rotation. Ce processus peut être optimisé par la perte de classification, car il s'agit en fait d'un problème de classification à 4 classes (en supposant que nous ne considérons que les quatre rotations de 0°, 90°, 180°, 270°).

avantage:

  • C'est facile à faire et cela fonctionne plutôt bien.

défaut:

  • Supposons que les images d'entraînement soient toutes prises avec une orientation standard (et qu'il existe une orientation standard).
  • Écart entre la formation et l'évaluation : il n'y a pas d'images pivotées pendant la phase d'évaluation.
  • Puisqu’il n’y a pas d’exemples négatifs provenant d’autres images, la précision n’est pas précise. Par exemple, il n’est pas nécessaire de faire la distinction entre les chats et les chiens.
  • Petit espace de sortie - seuls 4 cas (rotations) doivent être distingués, l'ajout de catégories n'est pas facile.
  • Dans certains domaines, cette approche peut s'avérer trop simpliste, comme dans les images Street View, où seul le ciel doit être identifié.

Il convient de noter que bien que cette méthode ait ses limites, elle constitue un moyen simple et efficace d’apprendre la représentation visuelle sans étiquettes, ce qui est très utile pour les ensembles de données non étiquetés à grande échelle.

  • Q : Qu'est-ce que l'apprentissage auto-supervisé
    • R : Cette méthode de génération d'étiquettes à partir des données d'entrée elles-mêmes est appelée apprentissage auto-supervisé. L'apprentissage auto-supervisé est une forme d'apprentissage non supervisé consistant à concevoir une tâche (telle que prédire l'angle de rotation d'une image) de manière à ce que le modèle puisse recevoir des signaux de supervision à partir des données d'entrée elles-mêmes. Cette approche ne nécessite pas d'étiquetage manuel, ce qui constitue son principal avantage, car l'étiquetage manuel de grandes quantités de données demande généralement beaucoup de temps et de ressources.
    • Dans l’exemple « prédiction de rotation », le but du modèle est de prédire l’angle selon lequel l’image sera tournée. Cet angle est l'étiquette obtenue à partir des données d'entrée elles-mêmes. De cette façon, le modèle peut apprendre des représentations visuelles utiles sans étiquettes humaines. C’est le concept de base de l’apprentissage auto-supervisé.
  • D’où vient l’étiquette de prédiction de contexte précédente ?
    • Dans la tâche d’apprentissage auto-supervisée de prédiction du contexte, les étiquettes sont également générées à partir des données d’entrée elles-mêmes. La manière de générer des étiquettes dépend de la tâche de prédiction de contexte spécifique que vous utilisez.
    • Prenons comme exemple une tâche de prédiction contextuelle courante : prédire les parties manquantes dans une image. Dans cette tâche, vous choisissez d’abord une partie de l’image comme entrée, puis choisissez une autre partie de l’image comme objet que vous souhaitez prédire. Cet objectif est votre label . Par exemple, vous pouvez choisir au hasard la moitié gauche d’une image comme entrée et utiliser la moitié droite comme cible. Dans ce cas, l’image sur la moitié droite est votre étiquette.
    • Il convient de noter qu’il ne s’agit que d’une forme possible de tâche de prédiction de contexte. Il existe de nombreuses façons différentes de concevoir une telle tâche, en fonction de vos objectifs spécifiques et de vos données. Mais dans tous ces cas, les étiquettes sont générées directement à partir des données d’entrée elles-mêmes. C'est pourquoi cette méthode d'apprentissage est appelée apprentissage auto-supervisé.

Prédiction de transformation relative

  • Relative Transformation Prediction, une stratégie d'apprentissage auto-supervisée pour estimer la transformation entre deux images. Cette approche nécessite généralement une bonne extraction de fonctionnalités.

Dans cette approche, le but du modèle est d'estimer la transformation d'une image à une autre. Supposons que nous ayons deux images x et t(x), où t(x) est l'image de x après une transformation (telle qu'une rotation, une mise à l'échelle, etc.). Le modèle extraira d'abord les caractéristiques de ces deux images, notées E(x) et E(t(x)), puis prédira la transformation de E(x) en E(t(x)).

  • avantage:

    • En complémentarité avec les méthodes traditionnelles de vision par ordinateur, par exemple, SIFT (Scale Invariant Feature Transform) a été développé pour la correspondance d'images.
  • défaut:

    • Écart Train-Évaluation : Il n'y a pas d'images transformées dans la phase d'évaluation.

    • Puisqu’il n’y a pas d’exemples négatifs provenant d’autres images, la précision n’est pas précise. Par exemple, il n’est pas nécessaire de faire la distinction entre les chats et les chiens.

    • Il y a des questions sur la sémantique et l'importance des fonctionnalités de bas niveau (en supposant que nous nous préoccupons de la sémantique).

      • Les caractéristiques peuvent ne pas être invariantes aux transformations.

Reconstruction

Refactorisez, détruisez la pièce d'origine et réapprenez la prédiction

Encodeurs automatiques de débruitage

Une méthode d'apprentissage auto-supervisée basée sur la reconstruction, c'est-à-dire utilisant des auto-encodeurs de débruitage (Denoising Autoencoders). Un auto-encodeur débruitant est un type spécial d'auto-encodeur qui prend un signal d'entrée bruité et tente de reconstruire le signal d'origine non contaminé.

L'auto-encodeur débruiteur se compose de deux parties : l'encodeur (Encoder) et le décodeur (Decoder). Le codeur code le signal d'entrée dans une représentation intermédiaire et le décodeur décode cette représentation dans l'espace du signal d'origine. Les auto-encodeurs de débruitage peuvent être entraînés pour extraire des fonctionnalités utiles des entrées bruyantes en minimisant la perte de reconstruction, la différence entre la sortie du décodeur et le signal d'origine non contaminé par le bruit ( .

Par exemple, des auto-encodeurs de débruitage peuvent être utilisés pour extraire des fonctionnalités utiles dans des images de chiffres manuscrits. Même si l'image est polluée par du bruit, par exemple si des pixels aléatoires sont ajoutés à l'image, l'encodeur automatique de débruitage peut toujours apprendre à extraire des informations utiles sur les chiffres manuscrits de l'image bruitée.

  • avantage:

    • Les auto-encodeurs de débruitage sont une approche simple et classique.

    • En plus de pouvoir apprendre des représentations utiles , nous obtenons également un débruiteur gratuitement.

  • défaut:

    • Train-Evaluate Gap : Formation sur les données bruyantes.

    • Cette tâche peut être trop simpliste et une compréhension sémantique peut ne pas être requise – des indices de bas niveau peuvent suffire.

Les auto-encodeurs de débruitage constituent une approche efficace dans l'apprentissage auto-supervisé, bien qu'ils puissent être trop simplistes pour certaines tâches complexes qui nécessitent une compréhension sémantique approfondie. Cependant, cette méthode reste très utile, notamment lorsqu'il est nécessaire de débruiter ou de restaurer un signal contaminé par du bruit.

Encodeurs de contexte

Une autre version du refactorer

Le moyen le plus efficace de prédire est de comprendre de quoi il s’agit.

"Encodeurs de contexte". Les encodeurs de contexte tentent de prédire les parties obstruées ou manquantes d'une image. Cette méthode est également courante dans le domaine du traitement du langage naturel, comme word2vec et la tâche de modèle de langage masqué dans le modèle BERT.

Dans cette méthode, l'entrée du modèle est une partie de l'image obstruée ou manquante, et la tâche du modèle est de prédire la partie obstruée ou manquante. Cela nécessite généralement que le modèle comprenne les informations contextuelles de l'image, car ce n'est qu'en comprenant le contexte de l'image que le modèle peut prédire quelle peut être la partie obstruée ou manquante.

Par exemple, si une image montre un éléphant mais qu’une partie de l’éléphant est masquée, si le modèle comprend qu’il s’agit d’un éléphant, il pourra peut-être prédire avec précision quelle est la partie masquée.

  • avantage:

    • Les informations fines doivent être préservées.

    • Reconstruction + perte de perception : peut être utilisée pour entraîner le modèle à mieux comprendre les images.

  • défaut:

    • Écart formation-évaluation : Aucune occlusion pendant la phase d’évaluation.

    • Les tâches de refactoring peuvent être trop difficiles et ambiguës.

    • Beaucoup d'efforts ont été consacrés aux détails "inutiles" comme des couleurs précises, de jolies bordures, etc.

Bien que les encodeurs contextuels puissent être une tâche complexe et ambiguë, ils constituent un moyen puissant d’apprendre à comprendre les représentations du contexte de l’image, ce qui est très utile pour de nombreuses tâches de vision par ordinateur.

Colorisation

Un résumé des tâches de reconstruction des couleurs de l’image. Dans cette tâche, le modèle prend une image en niveaux de gris en entrée et tente de prédire l'image couleur d'origine.

Dans ce processus, l'encodeur (Encoder) code d'abord l'image en niveaux de gris d'entrée dans une représentation intermédiaire (Représentation), puis le décodeur (Decoder) tente de reconstruire une image couleur à partir de cette représentation. La qualité de la reconstruction est mesurée par la perte de reconstruction, qui correspond à la différence entre l'image couleur prévue et l'image couleur d'origine.

  • avantage:
    • Les informations fines doivent être préservées car le modèle doit extraire suffisamment d'informations des images en niveaux de gris pour prédire les images en couleurs.
  • défaut:
    • Les tâches de reconstruction peuvent être trop difficiles et ambiguës, car la reconstruction d'images couleur à partir d'images en niveaux de gris nécessite que les modèles comprennent les relations complexes entre les couleurs, ce qui est difficile dans de nombreux cas.
    • Beaucoup de travail doit être consacré aux détails "inutiles" comme des couleurs précises et de jolies bordures, etc.
    • L'évaluation doit être effectuée sur des images en niveaux de gris, qui peuvent perdre certaines informations car les images en niveaux de gris ne contiennent pas d'informations sur les couleurs.

Encodeurs à cerveau divisé

Cette section décrit une forme spéciale de « codeurs de contexte », connus sous le nom de « codeurs à cerveau divisé ». Dans ce type de modèle, l'image d'entrée est divisée en deux parties, chaque partie est traitée par une partie du modèle, puis le modèle tente de prédire des informations sur l'autre partie.

Par exemple, une image couleur peut être décomposée en niveaux de gris et canaux de couleur. Ensuite, une partie du modèle travaille sur le canal de niveaux de gris, essayant de prédire le canal de couleur, et l'autre partie travaille sur le canal de couleur, essayant de prédire le canal de niveaux de gris. Ainsi, le modèle doit apprendre à déduire des informations d’une partie de l’image vers d’autres parties.

Les deux résultats de prédiction sont fusionnés pour obtenir le résultat de prédiction final.

avantage:

  • Les informations fines doivent être préservées car le modèle doit déduire des informations d'une partie de l'image vers d'autres parties.

défaut:

  • Les tâches de reconstruction peuvent être trop difficiles et ambiguës, car pour déduire des informations d'une partie d'une image à d'autres, le modèle doit comprendre les relations complexes entre les couleurs et la luminosité.
  • Beaucoup de travail doit être consacré aux détails "inutiles" comme des couleurs précises et de jolies bordures, etc.
  • Différentes parties des entrées doivent être traitées, ce qui peut rendre le modèle plus difficile à entraîner et à évaluer.

Classement des instances

**Classification des instances :** Il s'agit d'un type spécial de tâche dans lequel chaque instance de données est traitée comme sa propre classe.

Exemples de ConvNets

Exemples de réseaux de neurones convolutifs, une méthode d'apprentissage de fonctionnalités non supervisée

L'exemple de réseau neuronal convolutif fonctionne en extrayant plusieurs cultures déformées à partir d'une seule image, puis en laissant le modèle décider quelles cultures proviennent de la même image originale. Cette tâche est relativement simple si le modèle est robuste aux transformations souhaitées telles que les transformations géométriques et de couleur. Le modèle fait cela en classant K « catégories » (les catégories ici sont en fait les images originales).

  • avantage:

    • Les représentations ainsi apprises sont invariantes aux transformations souhaitées.

    • Les informations fines doivent être préservées.

  • défaut:

    • Choisir la bonne méthode d’augmentation des données est important.

    • À titre d'exemple, les images de la même classe ou instance sont des échantillons négatifs, mais il n'existe aucun mécanisme pour empêcher le modèle de se concentrer sur l'arrière-plan.

    • La conception originale n'était pas évolutive (puisque le nombre de « catégories » est égal à la taille de l'ensemble de données).

Une idée clé de cette approche est d'utiliser plusieurs coupes déformées de la même image pour entraîner le modèle à être robuste aux objets de l'image, ce qui nécessite que le modèle soit capable d'ignorer les changements de couleur et de géométrie et de se concentrer sur la reconnaissance des objets. dans l'image.

ConvNets exemplaires via l'apprentissage métrique

Comment implémenter des ConvNets exemplaires avec l'apprentissage des métriques.

Le paradigme original ConvNet a un problème d'évolutivité où le nombre de « catégories » est égal au nombre d'images de formation. Pour résoudre ce problème, la tâche peut être remodelée au moyen d’un apprentissage métrique.

L'apprentissage métrique est une méthode dont le but est d'apprendre une métrique de distance entre des points de données afin que la distance entre les points de données de la même catégorie soit petite, tandis que la distance entre les points de données de différentes catégories soit grande . Dans l'exemple de réseau neuronal convolutif, des fonctions de perte d'apprentissage métriques traditionnelles telles que la perte contrastive ou la perte triplet peuvent être utilisées, ainsi que la fonction de perte InfoNCE plus récente.

Fonction de perte InfoNCE

La fonction de perte InfoNCE est une version particulièrement populaire utilisée par de nombreuses méthodes récentes telles que CPC, AMDIM, SimCLR, MoCo, etc. Cela fonctionne comme une perte de classement : pour les combinaisons de requêtes et de positifs, elle doit être proche, et pour les combinaisons de requêtes et de négatifs, elle doit être éloignée. En termes de mise en œuvre, cela peut être considéré comme une perte de classification, mais les étiquettes et les poids sont remplacés.

Sur le côté droit de la figure, ce qui précède est la classification traditionnelle, qui peut être un codage à chaud, un vecteur très long. Deuxièmement, ce qui suit est l'apprentissage métrique, qui consiste à apprendre la similitude entre différents échantillons et à la cartographier dans l'espace latent.

Un avantage clé de cette approche est qu'elle reformule le problème des réseaux de neurones convolutifs illustrés comme un problème plus évolutif où les représentations apprises préservent les mesures de similarité entre les points de données. Bien que cela puisse introduire de nouveaux défis, tels que la manière de sélectionner ou de générer des échantillons négatifs, cela ouvre également de nouvelles possibilités d’apprentissage auto-supervisé.

Un peu abstrait par exemple

Disons que nous avons des images, qui sont des photos de différentes races de chiens. Notre objectif est que la machine apprenne à distinguer les différents types de chiens, même si elle n'a pas vu de photos de ces chiens pendant l'entraînement.

Dans l’exemple original de réseau neuronal convolutif, nous traiterions chaque image d’un chien comme une « catégorie » distincte. Nous recadrons ensuite de manière aléatoire plusieurs clips de chaque photo de chien et laissons le réseau déterminer si les clips proviennent de la même photo de chien. Le problème avec cette approche est que si nous avons un très grand nombre de photos de chiens, alors nous avons un très grand nombre de « catégories », ce qui rend très difficile la formation du réseau.

Nous nous tournons donc vers l’apprentissage métrique. Dans l'apprentissage métrique, nous ne nous soucions plus de savoir si chaque image d'un chien constitue une « catégorie » distincte. Au lieu de cela, nous nous soucions uniquement de la « similarité » entre les photos de différents chiens. Pour chaque photo de chien, nous recadrons aléatoirement un segment de celle-ci en tant que "requête", puis nous recadrons aléatoirement d'autres segments d'autres photos de chiens, dont certains proviennent de la même photo de chien (ce sont des "échantillons positifs"), tandis que d'autres les segments proviennent de photos de différents chiens (ce sont des « échantillons négatifs »). Ensuite, nous entraînons le réseau de telle sorte que la distance entre la requête et les échantillons positifs soit petite et que la distance entre la requête et les échantillons négatifs soit grande.

De cette façon, nous pouvons apprendre au réseau à distinguer les différents types de chiens, même s'il n'a pas vu de photos de ces chiens pendant l'entraînement. Parce que le réseau apprend à juger de la « similarité » entre les photos de chiens, plutôt que de mémoriser chaque photo de chien. Il s'agit de l'application de l'apprentissage métrique à l'exemple de réseau neuronal convolutif.

Codage prédictif contrastif (CPC)

Le codage prédictif contrasté (CPC) est une méthode d'apprentissage auto-supervisée qui est principalement utilisée pour apprendre des représentations utiles pour des données non supervisées.

L'idée de base du CPC est de prédire les futures parties des données, puis d'utiliser une perte contrastive (telle que la perte InfoNCE) pour entraîner les prédictions. Dans le contexte du traitement d'images, CPC peut prédire à partir d'un bloc d'une image les représentations des autres blocs ci-dessous. Il compare ensuite la représentation prédite à la représentation réelle et compare ce résultat à d'autres échantillons négatifs (c'est-à-dire d'autres images ou d'autres blocs de la même image). L’objectif est de permettre au réseau de mieux comprendre la structure intrinsèque et les informations contextuelles des données.

Imaginez que nous avons une image qui est une scène naturelle, avec un ciel bleu au-dessus de l'image, des arbres luxuriants au milieu et un lac en dessous.

Dans CPC, nous divisons cette image en trois régions (ou patchs), à savoir le ciel, les arbres et les lacs. Ensuite, nous choisirons une région, par exemple le ciel, et tenterons de prédire la représentation de la région sous-jacente (les arbres). Ce processus est appelé « prédiction du contexte ».

Ensuite, nous utilisons le réseau neuronal pour générer une représentation de la région d'arbre prédite, puis la comparons avec la représentation réelle de la région d'arbre pour voir si la représentation prédite est proche de la représentation réelle. Dans le même temps, nous prélèverons également des échantillons négatifs à partir d’autres images (telles que des images de paysages urbains, qui peuvent également être le ciel) pour voir si la représentation prédite est suffisamment éloignée de ces échantillons négatifs.

Grâce à une telle formation, le réseau neuronal apprendra à prédire la zone suivante (comme les arbres) en fonction d'une zone (comme le ciel). De cette manière, même pendant la phase de test, lorsque le réseau neuronal ne voit qu’une partie du ciel, il peut prédire avec précision qu’il peut y avoir des arbres en dessous, plutôt que d’autres objets, tels que des bâtiments ou l’océan.

Les avantages du CPC incluent :

  1. Il s’agit d’un cadre général qui peut être appliqué à de nombreux domaines tels que l’image, la vidéo, l’audio, le traitement du langage naturel, etc.
  2. Il doit conserver des informations fines, ce qui permet de mieux comprendre les caractéristiques des données.
  3. Cela peut aider le réseau à apprendre diverses parties d'objets grâce à la prédiction du contexte.

Cependant, le CPC présente également quelques inconvénients :

  1. Il est basé sur des exemples, c'est-à-dire que les images de la même catégorie ou de la même instance sont considérées comme des échantillons négatifs. Cela peut affecter les performances du modèle.
  2. Écart entre la formation et l'évaluation : CPC utilise de petites parcelles d'images pour la formation et l'image entière pour l'évaluation, ce qui peut entraîner un certain écart entre la formation et l'évaluation.
  3. CPC suppose que les images d'entraînement sont prises sous des angles normalisés (et de tels angles normalisés existent), ce qui peut limiter son applicabilité.
  4. Le processus de formation de CPC peut être lent en raison de la nécessité de diviser l'image en plusieurs petits correctifs.

Exploiter le temps

Regarder les objets bouger

« Regarder les objets bouger » est une méthode d'apprentissage auto-supervisée dont l'objectif principal est de prédire quels pixels vont bouger. Ce processus a tendance à devenir relativement simple une fois que nous pouvons segmenter les objets.

Plus précisément, le réseau extraira les caractéristiques de l’image et tentera de prédire quels pixels se déplaceront dans la prochaine image de l’image. Cette prédiction est effectuée en unités de pixels , cette méthode nécessite donc des étiquettes au niveau des pixels. Ces étiquettes sont généralement générées par un algorithme de segmentation de mouvement externe.

Les avantages de « regarder les objets bouger » incluent :

  1. Comportement spontané : le réseau peut apprendre spontanément la capacité de l'objet à segmenter des segments (séparer l'objet, comprendre le concept de l'objet ), car savoir quels pixels vont bouger est très utile pour comprendre les limites de l'objet.
  2. Aucun écart entre la formation et l'évaluation : pendant les phases de formation et d'évaluation, le réseau effectue des prédictions au niveau des pixels et entraîne et évalue toujours en même temps, il n'y a donc pas d'écart entre la formation et l'évaluation.

Cependant, cette approche présente également certains inconvénients :

  1. "Angles morts" : Pour les objets stationnaires, cette méthode peut ne pas fonctionner correctement, car elle se concentre principalement sur les pixels qui vont bouger.
  2. Peut se concentrer excessivement sur les grands objets bien visibles : les objets grands et bien visibles ont tendance à générer davantage de pixels en mouvement, de sorte que le réseau peut se concentrer trop sur ces objets tout en ignorant les objets petits ou moins visibles.
  3. Recours à un algorithme de segmentation de mouvement externe : la génération d'étiquettes au niveau des pixels nécessite un algorithme de segmentation de mouvement, ce qui conduit au fait que les performances de cette méthode dépendent largement des performances de l'algorithme de segmentation de mouvement.
  4. Ne peut pas être étendu aux réseaux temporels : lors du traitement des données vidéo, le réseau doit prédire les pixels en mouvement de chaque image, mais si l'image suivante est prédite, cette tâche devient alors très simple, car la majeure partie de l'image suivante est prédite. image C'est la même chose que l'image du cadre actuel.

Suivi par colorisation

"Color Pursuit" est une méthode d'apprentissage auto-supervisée dont l'objectif principal est de coloriser de nouvelles images en utilisant les informations de couleur des images précédentes. Cette tâche devient relativement facile si tous les objets peuvent être suivis.

Plus précisément, le réseau doit extraire les informations de couleur des images de référence (images qui ont été colorées), puis utiliser ces informations de couleur pour colorer les images d'entrée (images qui n'ont pas été colorées). Cela équivaut à suivre le mouvement des informations de couleur dans la vidéo.

Les avantages du suivi des couleurs incluent :

  1. Comportement spontané : le réseau peut apprendre spontanément des techniques telles que le suivi, la correspondance, le flux optique et la segmentation, car ces techniques sont très utiles pour extraire correctement les informations de couleur des images de référence et les appliquer aux images d'entrée.

Cependant, cette approche présente également certains inconvénients :

  1. Les signaux de bas niveau sont efficaces : les informations sur la couleur sont des signaux de bas niveau très directs, de sorte que le réseau peut s'appuyer sur ces signaux pour apprendre tout en ignorant les informations de niveau supérieur et plus sémantiques .
  2. Évaluer sur des images en niveaux de gris : étant donné que la trame d'entrée n'est pas colorée, le réseau doit être évalué sur des images en niveaux de gris, ce qui entraîne la perte de certaines informations de couleur.

Ordre temporel

"Cet ensemble de séquences d'images est-il dans le bon ordre" est une méthode d'apprentissage auto-supervisée dont l'objectif principal est de juger si un ensemble d'images vidéo est dans le bon ordre temporel. Cette tâche devient relativement facile si l’on peut reconnaître les actions et les poses humaines dans les vidéos.

Plus précisément, le réseau doit extraire les caractéristiques de chaque trame et analyser ces caractéristiques pour déterminer si la séquence des trames est dans le bon ordre. Cela équivaut à suivre les changements de mouvement et de posture humaine au fil du temps.

Les avantages de « l'organisation de cette séquence d'images dans le bon ordre » incluent :

  1. Pas d'écart entre formation et évaluation : dans les phases de formation et d'évaluation, le réseau effectue des jugements séquentiels, il n'y a donc pas d'écart entre formation et évaluation.
  2. Apprendre la capacité à reconnaître les poses humaines : étant donné que la résolution réussie de cette tâche nécessite la reconnaissance des actions et des poses humaines dans la vidéo, le réseau peut apprendre la capacité à reconnaître les poses humaines au cours du processus de résolution de cette tâche.

Cependant, cette approche présente également certains inconvénients :

  1. Se concentrer principalement sur la pose humaine : Cette méthode se concentre principalement sur la pose humaine, mais il est parfois impossible de déterminer la séquence correcte de séquences d'images basée uniquement sur la pose humaine, car différentes actions peuvent avoir la même pose humaine.
  2. L'évolutivité est discutable : bien que cette méthode fonctionne bien lors du traitement de séquences de trames, on peut se demander si elle peut être étendue pour traiter des réseaux de séries temporelles (tels que RNN, etc.), car lorsqu'il s'agit de réseaux de séries temporelles, la tâche peut devenir trop grand. Simple.

De plus, cette méthode a quelques directions d'extension :

  1. Placez aléatoirement un cadre parmi N cadres et trouvez ce cadre. Cela nécessite que le réseau non seulement juge de l'exactitude de la séquence de trames, mais également qu'il trouve les trames qui n'appartiennent pas à cette séquence.
  2. Utilisez une perte de classement : le réseau doit générer des intégrations similaires pour les trames proches dans le temps, et des intégrations différentes pour les trames éloignées dans le temps. Cela nécessite que le réseau soit capable de reconnaître la distance temporelle entre les trames.

Multimodal

Sac de mots (BoW)

Le "Bag-of-Words (BoW)" est une technique couramment utilisée dans le traitement du langage naturel et la vision par ordinateur. L'idée de base est de décomposer une entrée (comme un morceau de texte ou une image) en un ensemble de "mots" et puis construisez un « sac de mots » pour représenter cette entrée.

En traitement du langage naturel, un « mot » est un mot dans un texte. En vision par ordinateur, un « mot » peut être une caractéristique locale ou un certain motif dans une image.

Nous effectuons d'abord l'extraction de caractéristiques sur des images à l'aide d'un réseau neuronal convolutionnel auto-supervisé pré-entraîné . Ensuite, attribuez les caractéristiques extraites au vocabulaire visuel pour former un « sac visuel de mots ». Ensuite, nous pouvons effectuer des perturbations aléatoires sur l'image (telles que la rotation, le recadrage, etc.) et essayer de prédire le « sac de mots » de l'image originale à partir de l'image perturbée.

Essayez d'expliquer ce concept avec un exemple plus courant. Supposons que nous ayons une image contenant plusieurs animaux, tels que des chats, des chiens et des lapins .

Dans la méthode d'utilisation de Bag-of-Words (BoW en abrégé), nous avons d'abord besoin d'un modèle de réseau neuronal pré-entraîné capable de reconnaître et d'extraire les caractéristiques des images . Par exemple, dans notre exemple, un modèle de réseau neuronal peut reconnaître les caractéristiques d'un chat (telles que la queue, les oreilles et les yeux), les caractéristiques du chien (telles que le nez, les pattes et la queue) et les caractéristiques du lapin (telles que les oreilles et les pieds).

Ces fonctionnalités sont considérées comme des **"mots à vue"**, et nous les mettons toutes dans un "sac de mots", tout comme lorsque nous effectuons une analyse de texte, nous mettons tous les mots d'un texte dans un sac de mots. Par conséquent, quelle que soit la position spécifique de ces animaux dans l'image, ou la façon dont leur posture change, tant que ces caractéristiques sont dans l'image, nous pouvons trouver les « mots visuels » correspondants dans le sac de mots.

Ensuite, nous effectuons des perturbations aléatoires sur l'image, telles que la rotation, le zoom avant, le zoom arrière, le recadrage, etc. Ensuite, nous essayons de prédire le sac de mots visuels de l'image originale à partir de cette image perturbée . Cela nécessite que le modèle de réseau neuronal ait de fortes capacités d'apprentissage et de raisonnement, et qu'il soit capable d'identifier correctement les mots visuels appartenant à l'image originale à partir de l'image perturbée.

L'un des grands avantages de cette méthode est qu'elle peut comprendre et décrire des images sous différents angles et échelles, ce qui est très important pour de nombreuses tâches de vision par ordinateur, telles que la reconnaissance d'objets, la compréhension de scènes, etc. Cependant, cette méthode présente également certaines limites, par exemple qu'elle ne peut pas capturer les détails fins de l'image ni les informations de position relative entre les mots visuels. Par conséquent, bien que le sac de mots visuels soit un outil puissant, dans les applications pratiques, nous combinons généralement d'autres méthodes, telles que les réseaux de neurones convolutifs (CNN en abrégé), pour améliorer encore les performances de notre modèle.

Les avantages de cette approche comprennent :

  1. La représentation générée est invariante à la transformation requise : c'est-à-dire que peu importe la façon dont l'image est tournée ou recadrée, tant qu'elle contient le même « mot », le même « sac de mots » sera généré.
  2. Apprenez les compétences de raisonnement contextuel : étant donné que l'image perturbée doit prédire le « sac de mots » de l'image originale, le réseau doit apprendre à déduire certaines parties de l'image à partir d'autres parties de l'image.
  3. Déduire des mots dans des régions d'image manquantes : si une partie de l'image est manquante ou recouverte, nous pouvons également utiliser le "sac de mots" pour prédire quels "mots" cette partie peut contenir.

Cependant, cette approche présente également certains inconvénients :

  1. Nécessité de démarrer depuis un autre réseau : ce réseau ne peut pas apprendre de zéro, il doit être démarré depuis un autre réseau pré-entraîné.
  2. Capacité limitée à apprendre des caractéristiques plus fines : bien que les méthodes basées sur un sac de mots puissent identifier des caractéristiques générales dans les images, elles peuvent avoir une capacité d'apprentissage limitée pour des caractéristiques plus fines telles que la couleur, la texture, etc.

De plus, bien que le « Bag of Visual Words » soit une méthode d'extraction de caractéristiques efficace, il perd des informations spatiales, telles que des informations de position relative entre les caractéristiques, ce qui est très important dans de nombreuses applications. Il existe donc une méthode améliorée appelée « sac de mots spatial », c'est-à-dire que tout en conservant les caractéristiques du sac de mots, elle conserve également une partie des informations spatiales.

Correspondance audiovisuelle

La tâche d'apprentissage auto-supervisée de « correspondance audiovisuelle » est réalisée en combinant l'audio et les images. Le but est de savoir, à partir de l’image et du son, s’ils correspondent.

Illustrons avec un exemple simple : supposons que vous ayez un clip vidéo dans lequel un ballon de football est frappé et que vous entendiez le bruit d'un coup de pied. Dans cet exemple, l'image et le son correspondent car ce que vous voyez visuellement lorsque le ballon est botté correspond à ce que vous entendez de manière audible.

Cependant, si nous remplaçons l'audio de cette vidéo par un chat qui miaule, l'image et le son ne correspondent plus, car ce que vous voyez est un coup de pied dans un ballon de football, mais ce que vous entendez est un chat qui miaule.

Dans la tâche de « correspondance audiovisuelle », le but du réseau de neurones est d'apprendre cette correspondance. Pendant la formation, le réseau doit juger si l'image et le son d'entrée correspondent. S'il y a une correspondance, le réseau doit afficher « oui » ; sinon, le réseau doit afficher « non ». [Transfert d'image de lien externe...(img-pjRJW98E-1686298179749)]

De cette manière, le réseau peut apprendre à extraire des caractéristiques utiles des signaux visuels et auditifs et comprendre la corrélation entre les deux signaux.

L'avantage de cette approche est que nous pouvons obtenir des représentations des deux modalités simultanément sans avoir recours à des méthodes supplémentaires d'augmentation des données .

L'inconvénient de cette méthode est que toutes les images n'ont pas de sons correspondants, c'est-à-dire qu'il existe des « angles morts » que le réseau ne peut pas apprendre. De plus, la nature basée sur les instances de cette méthode produit des vidéos de la même catégorie ou instance négatives, ce qui peut affecter les résultats.

Tirer parti de la narration

Je suppose que tu aimes

Origine blog.csdn.net/weixin_57345774/article/details/131118438
conseillé
Classement