StoryDiffusion本地部署教程——字节联合南开开源 ,开辟视觉叙事新纪元

StoryDiffusion 是由南开大学与字节跳动的联合研究小组共同研发的一项突破性的图像与视频合成技术。它通过融合先进的自我注意力机制与语义运动预测技术,实现了在文本驱动下生成具有一致主题的图像和视频,为视觉叙事开辟了新的纪元。

35879fbe31892dd6bea7c61dda4c87c4.png

其核心创新在于一致性自注意力机制与语义运动预测器(的双技术融合:

  • 一致性自注意力:通过将多个文本提示(至少3个)批量输入模型,建立跨图像的关联性,确保角色外观、服饰等特征在长序列中稳定不变。例如,生成漫画时,角色在不同场景中的发型、服装细节可保持统一。

  • 语义运动预测器:将图像编码至语义空间,预测动作轨迹,实现平滑的视频过渡。例如,从“角色奔跑”到“跳跃”的动态过程,无需逐帧调整即可生成连贯动画514。该技术兼容 SD1.5 和 SDXL 模型框架,支持热插拔,开发者可灵活适配现有工具链。

接下来就为大家奉上详细的 StoryDiffusion 本地部署教程,手把手教你如何将模型部署到你的项目中,轻松享受高性能AI带来的便利。

扫描二维码关注公众号,回复: 17558992 查看本文章

本地部署

基础环境最低要求说明:

(在部署完成进行对话时一张卡回答得很慢,建议使用两张)

环境名称

版本信息 1

Ubuntu

22.04 LTS    

Cuda

V11.8

Python

3.12

NVIDIA Corporation

RTX 4090

(1)基础环境

查看系统是否有 Miniconda3 的虚拟环境

conda -V

如果输入命令没有显示Conda版本号,则需要安装。

1733121521985_image.png

(2)更新系统命令

输入下列命令将系统更新及系统下载

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

1733121540798_image.png

(3)创建虚拟环境

创建名称为“StoryDiffusion”的虚拟环境并激活

conda create --name storydiffusion python=3.12 -y
conda activate storydiffusion

1737708267142_20250109114458.png

1737708312179_20250109114517.png

(4)下载模型

输入下列命令下载StoryDiffusion模型同时进入项目中

git clone https://gitclone.com/github.com/FudanDISC/DISC-LawLLM.git
cd StoryDiffusion

1737708353029_20250109114658.png

输入下列命令:

pip install -r requirements.txt

建议使用这行命令,提升下载速度:

pip install -r requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple

1737708517569_20250115090505.png

直到“Successfully”出现,下载才结束:

1737708553191_20250115090608.png

(5)网页演示

在本地运行graio应用程序,使用下列命令运行项目呈现模型的成功界面

1737776470769_微信截图_20250115142929.png

以上就是 StoryDiffusion 的两种使用教程。希望能够帮助到大家,欢迎在评论区交流提问哦~