Next-Token Prediction is All You Need 智源发布原生多模态大模型Emu3

项目主页: https://emu.baai.ac.cn/about

Emu3模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。与当前由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导的多模态大模型有显著不同。

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/leo0308/article/details/143131105