10月12日上午,快手和北京大学及北京邮电大学的研究团队共同开源了Pyramid-Flow的超高清视频生成模型。目前支持两种分辨率模型生成,一种640x384,另一种1280x768。
用户在输入文本之后,即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。主要面向开发者、艺术家和创作者。目前,该模型已经在Hugging Face平台上线,并完全开源。
相比之前的 CogVideoX ,Pyramid Flow的生成速度更快,资源占用更低。
使用教程:目前只支持N卡,建议显存12G起,作者放出预告,下个版本支持CPU卸载,8G显存可以流畅运行(测试了CPU卸载,速度太慢了,所以低于12G显存的卡就别尝试了)
引导系数: 参数控制视觉质量。我们建议在文本到视频生成期间对 768p 模型使用 [7, 9] ,对 384p模型使用 7 中。
视频引导系数:参数控制运动。较大的值会增加动态程度并减轻自回归生成降级,而较小的值可稳定视频。
对于 10 秒视频生成,我们建议使用引导系数 7 和 视频引导系数 5。
一键包下载:私信回复 pyramid