1. 阿里巴巴通义万相2.1(WanX 2.1)
- 技术架构:基于Diffusion Transformer(DiT)架构,结合自研的高效变分自编码器(VAE)和Flow Matching训练方案,支持时空上下文建模。
- 参数规模:提供14B和1.3B两种参数规格,后者支持本地部署(仅需8.2GB显存)。
- 生成能力:
- 支持无限长1080P视频的高效编解码,首次实现中文文字视频生成。
- 可生成复杂运镜效果,并还原物理规律(如雨滴溅水效果)。
- 应用场景:广告设计、宣传片、短视频创作。
- 性能指标:
- 在VBench评测中以86.22%得分位居榜首,超越Sora、Luma等模型。
- 生成速度比原有SOTA模型快2.5倍,运动质量指标达商用级别。
2. 腾讯混元大模型(Hunyuan Video)
- 技术架构:130亿参数的图生视频模型