朝花夕拾：多模态图文预训练的前世今生

Diffusion Models专栏文章汇总：入门与实战

前言：时间来到2024年，多模态大模型炙手可热。在上一个时代的【多模态图文预训练】宛若时代的遗珠，本文的时间线从2019年到2022年，从BERT横空出世讲到ViT大杀四方，再到MLLM大放异彩，全面梳理一下多模态图文预训练的前世今生。

图文预训练

图文预训练是一种多模态学习方法，它通过结合图像和文本数据进行训练，以学习跨模态的语义表示。这种方法能够使模型同时理解图像内容和相关联的文本信息，从而在多种下游任务中实现更好的性能。图文预训练模型通常包含两个主要部分：图像编码器（Image Encoder）和文本编码器ÿ