2025年3月4日,智谱给我们送了个大礼——推出首个支持生成汉字的开源文生图模型——CogView4。这直接把中文图片生成技术推向了新的高度。
目前,CogView4 在 DPG-Bench 基准测试中综合评分排名第一,是开源文生图模型中的SOTA(State of the Art),并遵循 Apache2.0 协议,是首个支持该协议的图像生成模型。
CogView4 最大的亮点,就是它对中文的“超强理解力”。

传统文生图模型使用纯英文编码器(如T5),导致中文提示词理解较差。而 CogView4 创新采用 GLM-4 双语编码器,结合中英双语图文对训练,只需要用中文或英文告诉它想要什么,它就能帮你生成一张符合描述的图片。无论是想做海报还是短视频创作,这个模型都能派上用场。
场景革命:从广告到古诗,AI成为“全能画师”
先带大家体验一下:
我们输入提示词:“国潮奶茶海报,篆体‘限定款’字样+水墨丹顶鹤”,CogView4 可直出商用级设计图,节省设计师80%的修图时间。
再输入“野径云俱黑,江船火独明”,CogView4 自动构建云雾缭绕的江船夜景,灯光穿透黑暗的意境跃然纸上。
在内容创作方面,CogView4 支持 1024 Tokens 超长提示词,用户输入完整故事脚本,就能将超长剧本转换成分镜漫画,助力短视频博主高效产出。
CogView4 超强的生图能力,让网友直呼“海报设计师要失业了”。
开源战略:撬动AI生态的“杠杆”
此前,支持汉字生成的模型多为闭源(如即梦),企业需支付高昂费用。CogView4 开源后,中小团队可零成本接入,甚至自定义模型风格。
同时,智谱还宣布将推出 ControlNet 插件和 ComfyUI 支持,允许开发者通过线条草图控制图像生成,进一步降低创作门槛。未来开放的 API 接口,或许将催生“AI设计工具商店”。
这波操作或许会让闭源玩家“倍感压力”。当开源模型能力逼近闭源产品(如MidJourney),后者需要加速迭代或降价求生。CogView4 的发布,可能倒逼全行业技术透明化。
2025年,智谱还计划开源包括多模态模型、Agent 模型在内的全系列产品,形成“基础模型免费+增值服务收费”的商业模式。同时,通过开源吸引开发者贡献代码、训练数据,形成“用户需求→模型迭代→生态繁荣”的正循环。例如,未来设计师可上传国风素材库,微调出专属的“东方美学模型”。
CogView4 的发布,不仅是技术突破,更是一场开源精神对封闭体系的宣战。当汉字生成从“乱码”走向“艺术”,当 AI 创作从“玩具”升级为“生产力工具”,智谱正用开源的力量,让每个人都能成为“神笔马良”。这意味着,AI 创作的边界或许已经被重新定义。
大家有什么看法呢?欢迎在评论区留言~