畅游Diffusion数字人(21):基于Wan2.1的音频驱动数字人FantasyTalking

畅游Diffusion数字人(0):专栏文章导航

前言:AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具,如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型,虽然效果不错,但是收费昂贵。而开源解决方案,如Hallo3、Sonic,效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作,相比之前的开源方案在效果上进步显著。

目录

效果速览

原理简介

两阶段音频-视觉对齐

身份保持

运动强度调节

论文和代码


效果速览

可以去原始项目主页观看视频:

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/147076098
今日推荐