VL (Vision and Language) 任务简介及数据集

Image Retrieval(图像检索)

基本模型结构:

数据集:Flickr, COCO

Grounding Referring Expression(在图像中找到自然语言对应描述的物体)

基本模型结构:

数据集: RefCOCO, Visual7W

Image Captioning(图像描述)

基本模型结构:

数据集: COCO


Visual Question Answering(VQA,视觉问答)

基本模型结构:

两通道 VQA 模型:

数据集: VQA v1, VQA v2, Visual Genome, GQA


Visual Dialog(VD,视觉对话)

基本模型结构:

数据集: Visual Dialog, GuessWhat?!


demo

ViLBERT: https://vilbert.cloudcv.org/


本文参考于 ACL 2022 tutorial:Vision-Language Pretraining: Current Trends and the Future

猜你喜欢

转载自blog.csdn.net/Friedrichor/article/details/127126679
今日推荐