继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。该模型基于HunyuanVideo文生视频基础模型,利用基础模型先进的视频生成能力,将应用扩展到图像到视频的生成任务。混元研究团队还同步开源了LoRA训练代码,用于定制化特效生成,可创建更有趣的视频效果。
01 开源内容:
-
HunyuanVideo-I2V的推理代码
-
HunyuanVideo-I2V的模型权重
-
LoRA训练脚本
代码仓库:
https://github.com/Tencent/HunyuanVideo-I2V
模型地址:
https://modelscope.cn/models/AI-ModelScope/HunyuanVideo-i2v/
02 整体架构
为利用HunyuanVideo强大的视频生成能力,研究团队采用图像潜在连接技术来有效地重建参考图像信息,并将其纳入视频生成过程。
由于使用预训练的Decoder-Only架构多模态大语言模型(MLLM)作为文本编码器,可用于显著增强模型对输入图像语义内容的理解能力,并实现图像与文本描