通义万相2.1 你的视频创作之路

在这里插入图片描述

通义万相2.1是阿里巴巴达摩院研发的多模态生成式AI模型，以视频生成为核心，同时支持图像、3D内容及中英文文字特效生成。其核心能力包括：

复杂动作与物理规律建模
能够稳定生成包含人体旋转、跳跃、翻滚等复杂动作的视频，并精准还原碰撞、反弹、切割、挤压等物理现象（如雨滴落在伞面溅起水花的细节）。
多语言视频特效与艺术风格转换
支持中英文文字视频生成，提供粒子效果、过渡动画等特效选项，并可一键切换影视质感、水墨画风等艺术风格。
无限长1080P视频编解码
通过自研的3D因果VAE和DiT（Diffusion Transformer）架构，实现高分辨率视频的高效生成与扩展，突破传统模型的长度限制。
多模态图像生成
采用IC-LoRA训练方法，支持文生组图、图像拼接与联合描述生成，例如将多张图片拼接后生成连贯的“水墨晕染福字”场景。