1.简介
2025年3月4日由智谱发布的全网首个支持中文生成的开源模型CogView4开源地址https://github.com/THUDM/CogView4,CogView4遵循Apache 2.0协议,是首个以此协议开放的图像生成模型,为开发者提供了更灵活的使用空间,学生党做毕设再也不用跪求版权图。

技术原理
- 扩散模型结合 Transformer 架构:CogView4 采用扩散模型,这是一种通过逐步去除噪声来生成图像的方法。结合 Transformer 架构,它能够有效地处理文本和图像的联合表示。
- 多阶段训练策略和显存优化技术:这些技术使得 CogView4 在生成图像时更加高效,特别是在处理高分辨率图像时。
功能特点
-
双语支持:支持中英双语提示词输入,能根据中文或英文描述生成高质量图像。
-
汉字生成:作为首个支持在画面中生成汉字的开源模型,特别适合中文创意需求。
-
任意分辨率与长提示词处理:支持生成512×512到2048×2048之间的任意分辨率图像,同时能处理任意长度的提示词输入
技术优势
- 复杂语义对齐与指令跟随:在DPG-Bench基准测试中综合评分排名第一,展现了强大的复杂语义对齐和指令跟随能力。
- 高效推理与显存优化:通过模型CPU卸载和文本编码器量化等技术,降低了显存占用,提升了推理效率。
huggingface在线体验地址:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
我在线体验了一下:

输出:

2.本地部署
创建虚环境:
conda create -n CogView4 python=3.12
conda activate CogView4
安装Pytorch2.5:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.1 -c pytorch -c nvidia
克隆仓库:
git clone https://github.com/THUDM/CogView4
模型文件直接从modelscope克隆:
git clone https://www.modelscope.cn/ZhipuAI/CogView4-6B.git
3月5日CogView4已经接入diffuser库,但官网要求源码安装
git clone https://github.com/huggingface/diffusers.git
cd diffusers
pip install -e ".[torch]"
安装其他依赖:
pip install -r inference/requirements.txt
3.测试
gradio方式测试
需要先修改inference/gradio_web_demo.py
将其中的49行指向实际下载模型文件的目录:
model_path = "/home/aic/CogView4/CogView4/CogView4-6B"
第329行代码修改,以便局域网能够访问:
demo.queue().launch(inbrowser=True)
改为:
demo.queue().launch(inbrowser=True, server_name="0.0.0.0", server_port=7860, share=True)
代码中附带调用ChatGLM进行提示词润色增强的功能,可以申请ChatGLM API KEY。
运行代码时候导入环境变量:
export OPENAI_API_KEY="填入你申请的KEY"
export OPENAI_BASE_URL="https://open.bigmodel.cn/api/paas/v4"
python inference/gradio_web_demo.py
不填写也没有关系,可以在ChatGLM官网白嫖,让它帮你润色后复制过来。

试试看看,我输入的提示词:“写实风格,电影级画质,中国大学生努力学习AI技术,建设AI赋能强国。图片中有“努力学习AI技术”的文字”
ChatGLM润色后:
这幅图像以写实风格呈现,拥有电影级的画质,细腻而逼真。画面中心是一位中国大学生,他坐在现代化的图书馆内,专注地阅读着一本厚重的AI技术书籍。他的眼神坚定而充满求知欲,周围散落着各种编程教材和笔记本电脑,屏幕上显示着复杂的代码和AI算法图示。 背景中,透过巨大的落地窗,可以看到一座繁华的城市天际线,象征着科技与发展的融合。图书馆的墙壁上悬挂着“努力学习AI技术”的醒目标语,采用简洁现代的字体设计,激励着每一位学子。 画面色调温暖而明亮,光线从窗外洒入,照亮了学生的脸庞和书本,营造出一种积极向上的学习氛围。整个场景不仅展现了大学生对AI技术的热忱学习,更寓意着他们为建设AI赋能强国的坚定信念和不懈努力。
从画写实风格,感觉没有Wan2.1真实,生成的中文有时候还会有错,像上图,当然这个模型的最大亮点是扩散模型生成中文!
代码输出方式
from diffusers import CogView4Pipeline
import torch
pipe = CogView4Pipeline.from_pretrained("CogView4-6B",torch_dtype=torch.bfloat16).to("cuda")
# Open it for reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
prompt=prompt,
guidance_scale=3.5,
num_images_per_prompt=1,
num_inference_steps=50,
width=1024,
height=1024,
).images[0]
image.save("cogview4.png")