Next-Token Prediction is All You Need 智源发布原生多模态大模型Emu3

Emu3模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。与当前由扩散模型（如Stable Diffusion）和组合方法（如结合 CLIP视觉编码器和LLM）所主导的多模态大模型有显著不同。

在这里插入图片描述