Diffusion Models专栏文章汇总:入门与实战
前言:时间来到2024年,多模态大模型炙手可热。在上一个时代的【多模态图文预训练】宛若时代的遗珠,本文的时间线从2019年到2022年,从BERT横空出世讲到ViT大杀四方,再到MLLM大放异彩,全面梳理一下多模态图文预训练的前世今生。
目录
图文预训练
什么是图文预训练?
图文预训练是一种多模态学习方法,它通过结合图像和文本数据进行训练,以学习跨模态的语义表示。这种方法能够使模型同时理解图像内容和相关联的文本信息,从而在多种下游任务中实现更好的性能。图文预训练模型通常包含两个主要部分:图像编码器(Image Encoder)和文本编码器ÿ