朝花夕拾:多模态图文预训练的前世今生

Diffusion Models专栏文章汇总:入门与实战

前言:时间来到2024年,多模态大模型炙手可热。在上一个时代的【多模态图文预训练】宛若时代的遗珠,本文的时间线从2019年到2022年,从BERT横空出世讲到ViT大杀四方,再到MLLM大放异彩,全面梳理一下多模态图文预训练的前世今生。

目录

图文预训练

什么是图文预训练?

图文预训练下游任务:VQA

图文预训练下游任务:NLVR

图文预训练下游任务:图文检索

小结

发展脉络

开山鼻祖:2018年Bert

大杀四方:2020年 ViT 

增光添彩:2021年 CLIP

暴力美学:Florence


图文预训练

什么是图文预训练?

图文预训练是一种多模态学习方法,它通过结合图像和文本数据进行训练,以学习跨模态的语义表示。这种方法能够使模型同时理解图像内容和相关联的文本信息,从而在多种下游任务中实现更好的性能。图文预训练模型通常包含两个主要部分:图像编码器(Image Encoder)和文本编码器ÿ

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/142316792