前言:昨晚通义万相 WanX 2.1开源了,在多个指标上超越了sora、可灵、runway、hunyuan等模型。但是生成类的任务不能仅仅只看指标,实际的效果怎样?WanX 2.1 的技术架构是怎样的?有哪些技术改进?如何从T2V改造成I2V的模型的?这篇博客从原理和代码上详细解读这些问题。
目录
原理解读
采用flow matching。文本编码器采用支持多语言的UMT5,其提取的文本特征通过DiT的cross attention注入,所以这里是常规的DiT架构,而非MMDiT架构。之前step fun的30B 传统DiT结构效果并不好,