跨媒体检索是针对查询和检索结果具有不同媒体类型的场景而设计的。本文包括概念、方法、主要挑战和公开问题,并建立了包括数据集和实验结果的基准。本文构建了一个新的跨媒体数据集XMedia,包含文本,图像,视频,音频,3D模型五种媒体类型。
关键词:跨媒体检索,综述,概念,方法,基准,挑战
现在主流的方法是共同空间学习方法,学习不同媒体类型的特征的共同空间,并在共同空间中测量他们的相似性。
同时,跨媒体相似性度量方法通过分析已知数据关系直接计算跨媒体相似性,而不需要获得显式的公共空间。
跨媒体检索的简要说明:
一、定义
。。。。
二、共同空间学习(common space learning)
语义相同的数据具有潜在的相关性,它们可以在一个共同的高级语义空间中彼此接近。这些方法旨在学习这样的公共空间,并明确地将不同类型的媒体数据投影到该空间进行相似性度量。
本文介绍现有的七种方法,根据特征进行分类:
- (A)是传统的统计相关分析方法,主要通过优化统计值来学习公共空间的线性投影矩阵,是共同空间学习的基础。
- 在基本模型上,(B)基于DNN的方法以深度神经网络为基础模型,旨在利用其强大的抽象能力进行跨媒体相关学习。
- 在相关模型上,(C)跨媒体图正则化方法采用图模型来表示复杂的跨媒体相关性,(D)度量学习将跨媒体相关性看作一组相似/不相似的约束,(E)将跨媒体排序信息作为优化目标。
- 在共同空间属性上,(F)字典学习方法生成字典,学习的公共空间用于跨媒体数据的稀疏系数,(G)跨媒体哈希用于学习公共汉明空间以加速检索。
共同空间学习的基础,主要通过 优化统计值来学习线性投影矩阵。
典型相关分析(CCA):跨媒体数据通常被组织为具有不同媒体类型(如图像/文本对)的成对数据集。CCA学习了使两组异构数据之间的成对相关性最大化的子空间。CCA及其变体是最常用的跨媒体检索的基准方法。
CCA本身是无监督的,不使用语义类别标签,但研究人员扩展CCA以合并语义信息并取得很多进展,提高了跨媒体检索的准确度。
作为跨媒体公共空间学习的基本范式,这些方法相对训练效率高,易于实现。然而,仅通过线性投影难以真实地模拟真实世界中的跨媒体数据的复杂相关性。此外,这些方法大多只能对两种媒体类型进行建模,但是跨媒体检索通常涉及两种以上的媒体类型。
-
传统的统计相关分析 (Traditional Statistical Correlation Analysis Methods)
-
DNN-Based Methods
-
Cross-Media Graph Regularization Methods
-
Metric Learning Methods
-
Learning to Rank Methods
-
Dictionary Learning Methods
-
Cross-Media Hashing Methods
-
其他方法
三、跨媒体相似性度量方法(cross-media similarity measurement)
直接测量异构数据的相似性,无需将媒体实例从不同的空间投影到公共空间。
常用思路:采用图形的边表示媒体实例和多媒体文档(MMD)之间的关系。根据方法不同的侧重点,进一步将其分为两类:(A)基于图的方法,侧重于图的构造;(B)邻域分析法,主要考虑如何利用数据的邻居关系进行相似性度量。
- Graph-Based Methods
- Neighbor Analysis Methods
四、其他跨媒体检索方法
- Relevance Feedback Analysis 相关反馈分析
- Multimodal Topic Model 多模态话题模型