详细解读 CVPR2024:VideoBooth: Diffusion-based Video Generation with Image Prompts

Diffusion Models专栏文章汇总:入门与实战

前言:今天是程序员节,先祝大家节日快乐!文本驱动的视频生成正在迅速取得进展。然而,仅仅使用文本提示并不足以准确反映用户意图,特别是对于定制内容的创建。个性化图片领域已经非常成功了,但是在视频个性化领域才刚刚起步,这篇博客讲解CVPR2024一篇经典的论文《VideoBooth: Diffusion-based Video Generation with Image Prompts》。

目录

贡献概述

方法详解

粗细粒度两段式条件嵌入

粗到细的训练策略


贡献概述

1)我们提出以粗到细的方式嵌入图像提示。来自图像编码器的粗略视觉嵌

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/143145402