DiffBFR : Restauration du visage basée sur un modèle de diffusion, proposée conjointement par Meitu et l'Université chinoise des sciences et technologies | ACM MM 2023

Département éditorial de Wenyuan Machine Heart

La restauration des visages aveugles (BFR) vise à restaurer des images de visage de haute qualité à partir d'images de visage de mauvaise qualité. Il s'agit d'une tâche importante dans le domaine de la vision par ordinateur et du graphisme et est largement utilisée dans la restauration d'images de surveillance et de photos anciennes. Divers scénarios tels que inpainting et super-résolution d’image faciale.

Cependant, cette tâche est très difficile car la dégradation de l’incertitude peut nuire à la qualité de l’image au point de perdre des informations sur l’image, telles que le flou, le bruit, le sous-échantillonnage et les artefacts de compression. Les méthodes BFR précédentes s'appuient généralement sur des réseaux contradictoires génératifs (GAN) pour résoudre le problème en concevant divers a priori spécifiques au visage, notamment des a priori génératifs, des a priori de référence et des a priori géométriques. Bien que ces méthodes aient atteint l’état de l’art, elles n’atteignent toujours pas pleinement l’objectif d’obtenir des textures réalistes tout en récupérant des détails de visage à grain fin.

Parce que dans le processus de réparation d'images, l'ensemble de données d'images de visage est généralement dispersé dans un espace de grande dimension et les dimensions caractéristiques de la distribution présentent une distribution à longue traîne. Différentes de la distribution à longue traîne des tâches de classification d'images, les caractéristiques régionales à longue traîne dans la restauration d'images font référence à des attributs qui ont un faible impact sur l'identité mais un impact important sur les effets visuels, tels que les grains de beauté, les rides et les tons de couleur.

Comme le montre la figure 1, des expériences simples montrent que les anciennes méthodes basées sur le GAN ne peuvent pas bien gérer simultanément les échantillons situés en tête et en queue de la distribution à longue queue, ce qui entraîne un lissage excessif évident et une perte de détails dans l'image réparée. . La méthode basée sur les modèles probabilistes de diffusion (DPM) peut mieux s'adapter à la distribution à longue traîne et conserver les caractéristiques de la queue tout en s'adaptant à la distribution réelle des données.

90d121e225f9c4dc330724459689cd9d.png

Figure 1 Test de problèmes à longue traîne basés sur le GAN et sur le DPM

Des chercheurs du Meitu Imaging Research Institute (MT Lab) et de l'Université de l'Académie chinoise des sciences ont proposé conjointement une nouvelle méthode de restauration d'images de visages aveugles basée sur DPM, DiffBFR, qui réalise la restauration d'images de visages aveugles et convertit l'image du visage de faible qualité (LQ). réparé en une image claire de haute qualité (HQ).

59c1d84f652444cec8ebf1cf784f6131.png

Lien papier : https://arxiv.org/abs/2305.04517

Cette méthode explore l'adaptabilité de deux modèles génératifs GAN et DPM au problème de longue traîne et conçoit un module de réparation de visage approprié pour obtenir des informations détaillées plus précises, réduisant ainsi le phénomène de lissage excessif du visage provoqué par la méthode générative, améliorant ainsi la réparation. précision et exactitude. Cet article a été accepté par l'ACM MM 2023.

DiffBFR : méthode de restauration d'images de visages aveugles basée sur DPM

La recherche a montré que le modèle de diffusion est meilleur que la méthode GAN pour éviter l'effondrement du mode d'entraînement et l'ajustement pour générer des distributions à longue traîne. Par conséquent, DiffBFR utilise le modèle de probabilité de diffusion pour améliorer l'intégration des informations préalables sur les visages, sur la base desquelles il génère le QG. images dans une plage de distribution arbitraire. Avec de fortes capacités, DPM est choisi comme cadre de base de la solution.

Compte tenu de la distribution caractéristique à longue traîne sur l'ensemble de données de visage trouvées dans l'article, ainsi que du phénomène de lissage excessif basé sur les méthodes GAN dans le passé, cette étude explore des conceptions raisonnables pour mieux s'adapter à la distribution approximative à longue traîne, surmontant ainsi les problèmes dans le processus de réparation. Grâce à des expériences simples de GAN et DPM avec la même taille de paramètre sur l'ensemble de données MNIST (Figure 1), l'article estime que la méthode DPM peut raisonnablement s'adapter à la distribution à longue traîne, tandis que GAN accordera trop d'attention à la tête et ignorera les caractéristiques de queue, ce qui entraîne que les caractéristiques de queue ne sont plus générées. C’est pourquoi DPM a été choisi comme solution pour BFR.

En introduisant deux variables intermédiaires, deux modules de réparation spécifiques sont proposés dans DiffBFR, adoptant une conception en deux étapes, qui récupère d'abord les informations d'identité de l'image LQ, puis améliore les détails de texture en fonction de la distribution du visage réel. La conception se compose de deux parties clés :

(1) Module de restauration d'identité (IRM) :

Ce module est utilisé pour conserver les détails du visage dans les résultats. Dans le même temps, une méthode d'échantillonnage tronquée qui ajoute une partie du bruit à l'image LQ est proposée, remplaçant la méthode de débruitage de la distribution aléatoire gaussienne pure par l'image LQ comme condition dans le processus inverse. L'article prouve théoriquement que ce changement réduit la limite inférieure des preuves théoriques (ELBO) du DPM, rétablissant ainsi des détails plus originaux. Sur la base de preuves théoriques, deux modèles de diffusion conditionnelle en cascade avec différentes tailles d'entrée sont introduits pour améliorer cet effet d'échantillonnage et réduire la difficulté de formation liée à la génération directe d'images haute résolution. Dans le même temps, il est en outre prouvé que plus la qualité de l'entrée conditionnelle est élevée, plus elle est proche de la distribution des données réelles et plus l'image restaurée est précise. C'est pourquoi DiffBFR restaure d'abord les images basse résolution dans IRM. .

(2) Module d'amélioration de la texture (TEM) :

Utilisé pour texturer les images. Un modèle de diffusion inconditionnelle est introduit ici, qui est un modèle complètement indépendant de l'image LQ, ce qui rend les résultats de restauration plus proches des données d'image réelles. L'article prouve théoriquement que ce modèle de diffusion inconditionnelle formé sur des images HQ pures aide l'IRM à générer la distribution correcte des images dans l'espace au niveau des pixels, c'est-à-dire que le FID de la distribution d'images après application de ce module est inférieur au FID avant utilisation. et on obtient La répartition de l'image réparée est généralement plus similaire à celle de l'image HQ. Plus précisément, le pas de temps est utilisé pour tronquer l'échantillonnage et peaufiner la texture au niveau du pixel tout en conservant les informations d'identité.

Les étapes d'inférence d'échantillonnage de DiffBFR sont illustrées à la figure 2, et le diagramme schématique du processus d'inférence d'échantillonnage est présenté à la figure 3.

da302ca7461c35eb2a4fb5c01d358eca.png

Figure 2 Étapes d'inférence d'échantillonnage de la méthode DiffBFR

ce38eadab74f3d5f41374862736216d5.png

Figure 3 Diagramme schématique du processus d'inférence d'échantillonnage de la méthode DiffBFR

Résultats expérimentaux

836a2947fe0c4660b6b9da727c4e2a50.png

Figure 4 Comparaison des effets de visualisation de la méthode basée sur le GAN de BFR et de la méthode basée sur le DPM

a4f9b6e8a7f22a527831ad11c7e35d96.png

Figure 5 Comparaison des performances des méthodes BFR SOTA

743ada33eee91766727a9b8a8cf320f3.png

Figure 6 Comparaison des effets de visualisation de la méthode SOTA de BFR

92120d22fd88d7252d017ad0aec937d5.png

Figure 7 Visualisation de la comparaison des performances de l'IRM et de la TEM dans le modèle

dfef4d119003022393e43d05d5d2f50f.png

Figure 8 Comparaison des performances de l'IRM et de la TEM dans le modèle

ed36a536925921c05fc19925a61dadc6.png

Figure 9 Comparaison des performances de différents paramètres de l'IRM

eb53cd71fefca60041cd796f67760e25.png

Figure 10 Comparaison des performances de différents paramètres TEM

9403a478cba7a6397f713d59642bdcf2.png

Figure 11 Paramétrage de chaque module de DiffBFR

Résumer

Cet article propose DiffBFR, un modèle de restauration d'image de visage dégradé aveugle basé sur le modèle de diffusion, qui évite les problèmes d'effondrement du mode d'entraînement et de disparition de longue traîne basés sur les méthodes GAN du passé. Générez des images restaurées claires et de haute qualité à partir d'images de visages aléatoires gravement dégradées en intégrant l'a priori dans le modèle de diffusion. Plus précisément, deux modules, IRM et TEM, sont proposés respectivement pour restaurer la fidélité et restaurer les détails réels. La dérivation des limites théoriques et la démonstration d'images expérimentales démontrent la supériorité du modèle et sont comparées qualitativement et quantitativement aux méthodes SOTA existantes.

l'équipe de recherche

Cet article a été proposé conjointement par des chercheurs du Meitu Imaging Research Institute (MT Lab) et de l'Université de l'Académie chinoise des sciences. Le Meitu Imaging Research Institute (MT Lab) a été créé en 2010. Il s'agit de l'équipe de Meitu dédiée à la recherche d'algorithmes, au développement technique et à la production dans les domaines de la vision par ordinateur, de l'apprentissage profond, de la réalité augmentée et d'autres domaines. Depuis sa création, il s'est concentré sur le domaine de la vision par ordinateur. En 2013, l'entreprise a commencé à déployer l'apprentissage profond pour fournir un support technique à tous les produits logiciels et matériels de Meitu. Elle fournit également des services SaaS ciblés pour plusieurs secteurs verticaux de l'industrie de l'imagerie et promeut l'écosystème de produits d'IA de Meitu en découpant -technologie d'imagerie de pointe. Afin de se développer, il a participé à des concours internationaux de premier plan tels que CVPR, ICCV et ECCV, a remporté plus de dix championnats et finalistes et a publié plus de 48 articles de conférences universitaires internationales de premier plan. Le Meitu Imaging Research Institute (MT Lab) est profondément engagé depuis longtemps dans la recherche et le développement dans le domaine de l'imagerie. Il a constitué une réserve technique approfondie et possède une riche expérience de mise en œuvre technologique dans les domaines de l'image, de la vidéo, du design et du numérique. personnes.

Suivez le compte public [Machine Learning and AI Generated Creation], des choses plus passionnantes vous attendent à lire

Suppression, 60 000 mots ! 130 articles dans 30 directions ! CVPR 2023 L'article AIGC le plus complet ! Lisez-le d'une seule traite

Une explication approfondie de la diffusion stable : interprétation de l'article sur le modèle de diffusion potentiel derrière la technologie de peinture par IA

Une introduction simple à ControlNet, un algorithme de génération de peinture AIGC contrôlable ! 

Le GAN classique doit lire : StyleGAN

8e812caee6b9c20e945705ed415f353b.png Cliquez sur moi pour voir la série d'albums de GAN~ !

Une tasse de thé au lait et devenez le pionnier de la vision AIGC+CV !

La collection la plus récente et la plus complète de 100 articles ! Générer des modèles de diffusionModèles de diffusion

ECCV2022 | Résumé de quelques articles sur le Generative Adversarial Network GAN

CVPR 2022 | Plus de 25 directions, les 50 derniers articles du GAN

 ICCV 2021 | Résumé de 35 articles thématiques du GAN

Plus de 110 articles ! Examen du document GAN le plus complet du CVPR 2021

Plus de 100 articles ! Examen du document GAN le plus complet du CVPR 2020

Déballage d'un nouveau GAN : représentation de découplage MixNMatch

StarGAN version 2 : génération d'images de diversité multi-domaines

Téléchargement ci-joint | "Apprentissage automatique explicable" version chinoise

Téléchargement ci-joint | "Pratique de l'algorithme d'apprentissage profond TensorFlow 2.0"

Téléchargement ci-joint | Partage de "Méthodes mathématiques en vision par ordinateur"

"Un examen des méthodes de détection des défauts de surface basées sur le Deep Learning"

"Un examen de la classification d'images à échantillon zéro : dix ans de progrès"

"Un examen de l'apprentissage sur quelques échantillons basé sur des réseaux de neurones profonds"

Le « Livre des Rites · Xue Ji » dit : Si vous étudiez seul sans amis, vous serez seul et ignorant.

Cliquez sur une tasse de thé au lait et devenez le pionnier de la vision AIGC+CV ! , rejoignez  la planète de la création générée par l'IA et  des connaissances en vision par ordinateur !

Je suppose que tu aimes

Origine blog.csdn.net/lgzlgz3102/article/details/132750145
conseillé
Classement