(四十三):Comprehensive Linguistic-Visual Composition Network for Image Retrieval

(四十三):Comprehensive Linguistic-Visual Composition Network for Image Retrieval

  • 出处: SIGIR 2021: 1369-1378
  • 主要内容:细粒度的局部组合和全局组合(图像与文本的分别做注意力),以及互相学习、相互增强的模块。

手写笔记

请添加图片描述

请添加图片描述

猜你喜欢

转载自blog.csdn.net/qq_37486501/article/details/119637010
今日推荐