Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys

https://mp.weixin.qq.com/s/zmpvOFAjTc8r8sxJbidpGQ

By 超神经

场景描述:利用深度学习算法 GAN 可实现动作追踪与迁移,将某人物动作复制到其他人,应用到舞蹈领域,人人皆可成舞王。

关键词:GAN  动作迁移  舞蹈

Récemment, "This! La deuxième saison de "It's Hip-hop" a commencé à diffuser, déclenchant une fois de plus une vague de danse nationale.

Peu de temps après avoir commencé à diffuser, cette émission à plein temps et à haute énergie a obtenu un score élevé de 9,6 sur Douban. Les merveilleuses performances des danseurs de la compétition ont amené la foule mangeant des melons devant l'écran à crier "Too Burning!" Et "Amazing!", Et ils n'ont même pas pu s'empêcher de trembler avec la musique.

Cependant, si je veux vraiment sauter tout seul, on estime qu'il y a une différence entre Luo Zhixiang et la situation réelle. Je me suis imaginé comme ça:

Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys

Mais en fait c'est comme ça:
Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys

Pour les danseurs, leurs actions s'appellent Hiphop, Breaking, Locking, etc., tandis que pour les mangeurs de melons, ils tremblent, roulent et pointent ...

Peut-être avez-vous manqué le hip-hop dans cette vie? Allons à la danse carrée ...

et beaucoup plus! Ne vous précipitez pas pour abandonner. Plusieurs grands gars de l'Université de Californie à Berkeley ont recherché une «arme secrète» IA pour que vous puissiez faire éclater instantanément vos talents de danseur et devenir la prochaine génération de rois de la danse.

Tout le monde peut être le roi de la danse

En août de l'année dernière, des chercheurs de l'Université de Californie à Berkeley ont publié un article intitulé "Everybody dance now", utilisant l'algorithme d'apprentissage profond GAN (Generative Adversarial Networks), qui peut reproduire les mouvements des artistes professionnels et combiner Le mouvement est transféré à n'importe qui, afin de réaliser "Faites comme je fais".

Regardons d'abord l'affichage du résultat de la danse de copie et ressentons-le:

Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys
Le coin supérieur gauche est le danseur professionnel, le coin inférieur gauche est la pose détectée, le milieu et la droite sont les vidéos générées copiées sur la personne cible

Dans le passé, la technologie de changement de visage de Deepfake est devenue un grand succès, mais maintenant toute la personne peut "Deepfake"! Jetons un coup d'œil à la façon dont cette opération divine est réalisée.

Selon l'article, la méthode de migration est divisée en les étapes suivantes:

  • Étant donné deux vidéos, l'une est la vidéo source d'action et l'autre est la vidéo du personnage cible;

  • Ensuite, utilisez un algorithme pour détecter la posture de danse des danseurs professionnels à partir de la vidéo source et créez une image stickman du mouvement correspondant;

  • Ensuite, utilisez les deux algorithmes d'apprentissage en profondeur formés pour les réseaux d'adversaires génératifs (GAN) pour créer toutes les images de la personne cible et générer des images vidéo plus claires et plus réalistes pour elle.

Le résultat final est que le système peut cartographier les mouvements corporels des danseurs professionnels aux danseurs amateurs. En plus d'imiter des actions, il peut également parfaitement fictif des voix humaines et des expressions faciales.

Secret derrière la technologie noire

Le principe spécifique de cette technologie noire est le suivant. Le pipeline de migration de mouvement est divisé en trois parties:

  1. Détection d'attitude:

L'équipe a utilisé le modèle de détection de pose existant OpenPose (projet open source CMU) pour extraire les points clés de la pose du corps, du visage et de la main de la vidéo source. L'essence de cette étape est d'encoder la posture du corps, en ignorant les informations telles que la forme du corps.
Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys

Effectuez une détection de pose sur les danseurs et encodez-les sous forme de graphiques stickman

  1. Standardisation globale de la posture:

Calculez la différence entre la forme du corps et la position des caractères source et cible dans un cadre donné, et convertissez le graphique de posture source en un graphique de posture conforme à la forme du corps et à la position du personnage cible.

  1. À partir des graphiques de posture normalisés, déduire l'image de la personne cible:

En utilisant un modèle de réseau de confrontation générative, le modèle d'apprentissage apprend à mapper à partir des graphiques de posture standardisés vers l'image de la personne cible.

Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys
Diagramme schématique du processus de formation (en haut) et du processus de migration (en bas)

Dans le processus de développement du système, l'équipe a utilisé le GPU GeForce GTX 1080 Ti dans NVIDIA TITAN Xp et cuDNN accéléré par PyTorch pour la formation et l'inférence.

Dans la phase de conversion d'image, l'architecture de traduction d'image pix2pixHD développée par NVIDIA pour la formation à la confrontation est adoptée. Le résidu de la face est prédit par le générateur global de pix2pixHD. Ils utilisent un seul discriminateur PatchGAN 70x70 sur le visage.

Pendant le processus de formation, les méthodes de collecte de données vidéo source et vidéo cible sont légèrement différentes. Pour garantir la qualité de la vidéo cible, utilisez une caméra de téléphone portable pour prendre une photo en temps réel du sujet cible à une cadence de 120 images par seconde, et chaque vidéo dure au moins 20 minutes.

Pour la vidéo source, il vous suffit d'obtenir les résultats de détection de posture appropriés, vous pouvez donc utiliser des vidéos de haute qualité de performances de danse en ligne.

Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys
Affichage des résultats du mappage système

Pour les résultats du système, les chercheurs ont dit qu'il n'était pas parfait. Si la plupart des vidéos qu'elle produit sont encore très réalistes, elles révèlent parfois les pieds du cheval, comme la disparition de certaines parties du corps, comme la «fusion» et d'autres phénomènes anormaux.

De plus, comme l'algorithme n'encode pas les vêtements, il ne peut pas produire une vidéo de vêtements dansant avec l'action, et la cible doit porter des vêtements serrés.

Si ces lacunes sont ignorées pour le moment, cette technologie est en effet passionnante.

Avec cet outil d'IA, même si vous êtes un jeune danseur en danse, ou que vos membres sont raides et non coordonnés, vous pouvez devenir un "maître de la danse" comme Aaron Kwok, Show Luo ou n'importe quel danseur que vous aimez. Même la sortie dans l’espace de Jackson n’est qu’un morceau de gâteau pour vous.

Cependant, ce n'est pas seulement l'équipe de Berkeley qui rêve de danser. Google a également mis beaucoup d'efforts dans la combinaison de l'IA et de la danse.

Google AI crée de nouveaux modèles de danse

À la fin de l'année dernière, Damien Henry, chef de projet technique du département des arts et de la culture de Google, a travaillé avec le chorégraphe britannique Wayne McGregor pour développer un outil de chorégraphie capable de générer automatiquement des styles spécifiques.

McGregor, qui détient un doctorat honorifique en sciences de l'Université de Plymouth, s'est toujours intéressé à la science et à la technologie. Lorsqu'il a revu ses vidéos de danse de 25 ans, il s'est demandé s'il pouvait utiliser la technologie pour garder la performance fraîche. Il est donc allé demander à Henry comment utiliser la technologie pour créer continuellement de nouveaux contenus de danse?

Et Henry s'est inspiré d'un article sur un site Web scientifique. Cet article présente l'utilisation des réseaux de neurones pour prédire la prochaine lettre en fonction de l'écriture manuscrite de la lettre précédente.

Il a donc proposé un algorithme similaire permettant de prédire un mouvement donné. La pose du danseur est capturée par vidéo, puis le prochain mouvement de danse le plus probable est généré et affiché à l'écran en temps réel.

La vidéo montre l'effet de la chorégraphie de l'IA et de l'affichage en temps réel sur l'écran

Cet algorithme ignore également les vêtements des gens, capture simplement les points clés des poses spécifiques de l'acteur pour obtenir le modèle stickman.

Lorsqu'ils sont entrés dans les vidéos de danse de McGregor et de ses danseurs, l'IA a appris à danser, et le style de danse généré était très similaire à celui de McGregor.

Bien qu'en termes de créativité de la danse, l'intelligence artificielle a encore certaines limites. Cet outil Google AI ne peut pas inventer des actions qu'il n'a jamais «vues». Il prédit simplement l'action la plus probable parmi les actions qu'il a apprises.

En outre, cette technologie peut également fournir des styles mixtes de chorégraphie de danse, tels que l'insertion d'une vidéo de samba brésilienne dans la vidéo de McGregor, l'IA peut donner une toute nouvelle danse mixte. Henry ne craignait pas que cela donne une danse de quatre différences, car la source de l'apprentissage était toujours apportée par les gens.

Le suivi de la posture de l'IA est plus que de simples «rêves dansants»

Après avoir vu tant de techniques pour vous aider à «danser», avez-vous déjà hâte de l'essayer?

Dance AI permet à ceux qui n'osent pas bouger, bouger plus librement et plus facilement, et expérimenter le plaisir de la danse et du sport. Mais la technologie derrière tout cela ne se limite pas à la création de blogs.

L'estimation de la posture qui prend en charge l'IA de la danse a une énorme énergie cachée derrière elle. Elle peut nous aider à compléter les mouvements du corps avec plus de précision, tels que l'apprentissage du fitness 3D, la correction de la posture sportive, l'entraînement de rééducation des patients et même l'ajustement virtuel, la correction de la posture des photos , Apportera de nouvelles percées.

Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys
Large gamme d'utilisations pour l'estimation de la pose

Selon ce type de développement, les machines en apprendront davantage sur nous, deviendront de plus en plus familières avec nos caractéristiques de posture et nos comportements, nous aidant ainsi à mieux nous comprendre.

Bon, n'en parlons pas, je vais apprendre à danser avec l'IA. Voulez-vous vous réunir?

Ensemble de données super neurales

Ensemble de données COCO grande image

L'ensemble de données COCO a été publié par Microsoft en 2014 et est maintenant devenu une plate-forme de test standard pour les sous-titres d'images. La taille du fichier est de 83,39 Go.

L'ensemble de données COCO est un grand ensemble de données d'image conçu pour la détection d'objets, la segmentation, la détection de points clés de caractères, la segmentation de remplissage et la génération de sous-titres dans le domaine de la vision industrielle. L'ensemble de données COCO vise la compréhension de la scène, qui est principalement interceptée à partir de scènes quotidiennes complexes.La cible de l'image est calibrée par segmentation précise.

L'ensemble de données COCO présente les caractéristiques suivantes: segmentation cible, perception dans la scène, segmentation superpixel, 330000 images (plus de 200000 étiquettes), 1,5 million d'instances cibles, 80 classes cibles, 91 classes d'éléments, 25 Les gens avec des points clés.

Hyper-Neural HyperAI collecte et organise des centaines d'ensembles de données publics à travers le monde, fournit des téléchargements de miroirs nationaux et fournit des services gratuits aux instituts de recherche scientifique et aux développeurs.

Pour des ensembles de données plus pertinents, veuillez visiter https://hyper.ai pour télécharger

Mangez ces ensembles de données et modèles, apprenez à danser avec l'IA et faites des TensorFlowBoys

Je suppose que tu aimes

Origine blog.51cto.com/14929242/2535321
conseillé
Classement