信息检索——查全率和查准率

        在信息检索领域,信息检索系统(Information Retrieval System,IRS)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。任何具有信息存储(Information Storage,IS)与信息检索(Information Retrieval,IR)功能的系统都可以称为IRS,即向用户提供IR服务的系统。

        在设计与开发IRS(如文献IRS、图书IRS等)时,需要考虑系统在使用过程中的实际效果,因此提出一些指标来体现IRS系统的信息检索效果,本博客将介绍查全率与查准率的概念与计算规则,二者是反映检索效果的重要指标。本博客中指标符号及描述如下表所示:

指标符号 描述
I 系统中信息总量
Ir 系统中相关信息量
R 检索出的信息量
Rr 检索出的相关信息量
Precision Ratio 查准率
Recall Ratio 查全率

 图1 查全率与查准率计算图

查准率

        用户在使用IRS时,需要通过输入的词条(忽略词条与用户实际期望的偏差)找到相关信息,但是检索到的信息不一定都是实际的词条相关信息,为了表示检索到的相关信息占检索出信息的比例,即检索出信息的有效性、准确性,提出查准率(精度,Precision Ratio)是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献量与检出的文献总量的百分比。查准率公式为:

Precision Ratio=\frac{Rr}{R}\cdot 100%

      

查全率

        只使用查准率不能完全体现信息检索的效果,为了表示检索到的相关信息占系统中全部相关信息的比例,提出查全率(召回率,Recall Precision),查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献量与检索系统中相关文献总量的百分比。查全率公式为:

Recall Ratio=\frac{Rr}{Ir}\cdot 100%

调整查全率和查准率对于信息检索的意义

         正常情况下RrR、Ir的关系如图1所示,但极端情况下检索返回了较少或唯一的相关信息,查准率为100%,查全率较低。通俗来讲,例如某用户输入“水果”要查找所有水果的图片,结果IRS只返回了苹果的图片,准确性即查准率为100%,但是非常不全面,海量的水果图片只返回了苹果的图片,用户体验降低。模型效果如下图: 

        同样地在另一种相反的极端情况下,一个将IRS中的所有相关信息返回为结果集合的系统有100 %的查全率,但是查准率却较低。通俗来讲,例如某用户输入“苹果”要查找所有苹果的图片,结果IRS返回了系统中所有水果的图片,非常全面,用户想要检索的苹果图片夹杂在所有水果图片中全部返回,查全率为100%,但是非常不准确,用户要从海量的水果图片中找到所需要的苹果的图片,用户体验同样降低。模型效果如下图:

        一个完美的IRS追求Ir和R相等,理想状态的IRS模型如下:

         此时有如下关系:

PrecisionRatio=RecallRatio=100%

        但是显然很难实现,查全率和查准率之间具有互逆的关系, 在IRS系统设计开发过程中,根据查准率查全率可绘制系统的PR曲线,可根据曲线判断系统的优劣,将两者之间进行平衡折中。通常,以查全率和查准率为指标来测定IRS的有效性时,总是假定查全率为一个适当的值,然后按查准率的高低来衡量系统的有效性。使用泛指性较强的检索语言(如上位类、上位主题词),改变检索项、减少限制条件,都能提高查全率,但查准率下降;使用专指性较强的检索语言(如上位类、上位主题词)能提高查准率,但查全率下降。

查全率和查准率在软件评测方面的应用

        杀毒软件评测一般由一些比较大的专业论坛或者权威的国际机构来进行,方法是在一个新的电脑系统里播洒上一定数量流行木马病毒的样本,然后安装要测试的杀毒软件,通过对查杀结果的分析来确定该杀毒软件对木马病毒是否全数检出,以及在杀毒过程中是否准确清除木马存在误杀正常软件的情况。一般来说,病毒库全或者有智能分析引擎的杀毒软件能全面地查检出病毒,并且杀毒时准确度比较高,较少存在误杀现象。通常采用查杀速度及查杀率一说,也有叫做查全率与查准率的。

参考资料链接:查全率与查准率_百度百科

猜你喜欢

转载自blog.csdn.net/m0_51660523/article/details/121651367