项目主页: https://emu.baai.ac.cn/about
Emu3模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。与当前由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导的多模态大模型有显著不同。
项目主页: https://emu.baai.ac.cn/about
Emu3模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。与当前由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导的多模态大模型有显著不同。