畅游Diffusion数字人(15):详细解读字节跳动最新论文——音频+姿态控制人类视频生成OmniHuman-1

Diffusion models代码解读:入门与实战

前言:昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文,效果非常炸裂,并且是基于最新的MM-DiT架构,今天博主详细解读一下这一技术。

目录

贡献概述

方法详解

音频条件注入

Pose条件注入

参考图片条件注入

训练策略

训练数据

论文

个人感悟


贡献概述

端到端的人类动画,例如基于音频的对话人类生成,在最近几年经历了显著的进展。然而,现有方法在扩展为大型通用视频生成模型方面仍然面临挑战,限制了它们在实际应用中的潜力。本文提出了 OmniHuman,一个基于扩散变换器的框架,通过将与运动相关的条件混合到训练阶段来扩展数据。为此,我们引入了这两种混合条件的训练原则,以及相应的模型架

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/145428479
今日推荐