跨媒体检索评价指标——MAP和CMC曲线

一种新的主要针对图片/文字的可扩展的跨媒体检索评估方法。

THE EVALUATION PROTOCOL 

数据集划分:训练和测试集各含有一半的类别,并且类别不重合。每个集合进一步被分为两个子集:数据库子集和查询子集。使用这四个子集来衡量跨媒体检索的两个任务:

  • Non-extendable (non-XTD) retrieval: 用训练集的数据子集进行训练。然后,使用训练集的查询子集中的每个样本作为查询,在训练集的训练子集中搜索其相关的异构数据。训练/测试类别相同,衡量了传统的不可扩展的跨媒体检索方法。
  • Extendable (XTD) retrieval:  用训练集的数据子集进行训练。使用测试集的查询子集的样本作为查询,在测试集的数据库子集中搜索它们相关的异构数据。在训练和测试数据之间没有类重叠,并且在这个任务中评估新数据集的可扩展性。

为了平衡数据集划分对评估结果的影响,随机进行N次类别划分,最终的表现是这N次的平均。

评价指标:CMC curve 和 MAP.

MAP(平均正确率):MAP是所有查询的AP得分的平均数

AP计算平均正确率(P)和召回率(R)的变化,即P-R曲线下的面积。

给定一个查询q,定义一个指标\delta (q,i),如果第i个检索出来的文档是相关的,\delta (q,i)=1,否则\delta (q,i)=0

第k个位置的准确率是:   P(q,k)=\tfrac{1}{k}\sum_{i=1}^{k}\delta (q,i)

cl(q)=\sum_{i=1}^N\delta (q,i),数据库中相关文档总数

前k个位置的平均正确率:

常将k设为数据库的大小。

MAP是一种常用的检索度量,可以反映方法的整体性能,但是对检索结果的细节缺乏洞察力。

总结:

例:返回文档:相关 不相关 相关 不相关 相关 ;总相关文档数 4

AP  =  1/数据库中相关文档总数  *  累加(对每个相关文档和相关文档之前所有相关文档数/该相关文档的位置) 

AP = 1/4*(1/1+2/3+3/5)(返回文档排序;只计算相关文档,分子是相关文档个数,分母是返回文档总数)

MAP 是AP的均值

CMC曲线(累积匹配曲线):

CMC曲线是人物再识别中常用的评价指标,表示返回的前n个结果中正例的概率。无论数据库中实际有多少匹配,计算中只计算第一个匹配项。与MAP相比,CMC曲线是一种细粒度度量,显示了精度随等级的变化。CMC曲线是MAP的一个很好的互补度量。

参考:A New Evaluation Protocol and Benchmarking Results for Extendable Cross-media Retrieval 

猜你喜欢

转载自blog.csdn.net/sunshine__0411/article/details/83501942