畅游Diffusion数字人(22):CVPR2025解读首个基于DiT的数字人Hallo3

畅游Diffusion数字人(0):专栏文章导航

前言:之前介绍过很多基于Unet的数字人工作,这些工作受限于基模的能力,在人物的动态性和生动性上非常有限。这篇博客介绍Hallo3,这是第一个基于DiT的数字人工作。

目录

贡献概述

动机

方法详解

音频特征

身份保持

长视频推理

训练阶段

数据和实验


贡献概述

作者自己总结的几点贡献:

(1)身份保存:我们使用3D VAE和一堆变压器层作为身份参考网络,使身份信息的嵌入和注入到去噪潜码中进行自我注意。这有助于准确表示和长期

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/147089086
今日推荐