PR曲线和ROC曲线理解2---进阶理解

前段时间写了ROC曲线和PR曲线的思想,这次做一些延伸:

PR曲线计算范围:大于阀值的那些样本计算得到。

而ROC曲线计算范围:根据阀值点对全量样本判断,进而依据全量样本计算。

1、什么是BEP(best event point),怎么选择

BEP是PR曲线中P=R时对应的阀值点,即在哪一个阀值下,精确率p和召回率r会相等。结合pr曲线趋势理解,bep越大,说明pr曲线越靠近右上角,pr曲线下方面积越大。

总结起来:表面上来说,bep取值为p=r下的阀值点,实际是衡量pr曲线趋向右上角的程度。

2、BEP和F1的关系

(理解方式1)

pr曲线由很多对(p、r)点所组成,其中每个(p、r)对痘对应一个f1值。而bep是依据整个pr曲线趋势得到。所以,f1

值是一个局部指标,衡量模型在指定阀值点下的预测能力,而bep是一个全局指标,衡量模型在各个阀值点下的全局预测能力。

(理解方式2)

从实际数据挖掘角度来说,由于一般使用默认阀值,所以数据挖掘人员一般只会得到一个F1值,这是F1又可以认为是一个全局模型指标,一个对应默认阀值点下的全局模型指标。而bep实际是p=r处的阀值点,所以bep又可以理解为一个局部指标,一个刻画pr曲线趋向于右上角的局部指标。

局部指标和全局指标是相对而言。

3、PR曲线下面面积的含义

pr曲线下方类似于roc曲线的下方面积AUC,但含义不一样。平均精确率(average precision)可以认为是pr曲线下方的近似面积,计算方式:

ap = sum_i{(R_i-R-[i-1])*P_i}

p_i的权重是前后2次的召回率之差,所有的权重之和等于1,这时ap其实是各个阀值下precision的加权平均值。

ap为什么是pr曲线下方面积?

R_i-R_[i-1]可以认为是矩阵的宽,而p_i可以认为是矩阵的长,ap就是把pr曲线纵向切分为很多个多边形,然后求和。

4、ROC曲线下方的面积AUC的物理意义为什么是“任选一个正样本和一个负样本,正样本得分大于负样本得分的概率”?

5、ROC曲线的最佳切分点怎么选取?

-- 未完待续 --

发布了64 篇原创文章 · 获赞 24 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qm5132/article/details/101671509