腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,部署、推理实战教程

继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。该模型基于HunyuanVideo文生视频基础模型,利用基础模型先进的视频生成能力,将应用扩展到图像到视频的生成任务。混元研究团队还同步开源了LoRA训练代码,用于定制化特效生成,可创建更有趣的视频效果。

01 开源内容:

  • HunyuanVideo-I2V的推理代码

  • HunyuanVideo-I2V的模型权重

  • LoRA训练脚本

代码仓库:

https://github.com/Tencent/HunyuanVideo-I2V

模型地址:

https://modelscope.cn/models/AI-ModelScope/HunyuanVideo-i2v/

02 整体架构

为利用HunyuanVideo强大的视频生成能力,研究团队采用图像潜在连接技术来有效地重建参考图像信息,并将其纳入视频生成过程。

由于使用预训练的Decoder-Only架构多模态大语言模型(MLLM)作为文本编码器,可用于显著增强模型对输入图像语义内容的理解能力,并实现图像与文本描