用ROCit包绘制ROC曲线和正响应和负响应的累积密度

关于ROC分析(ROC curves)

每次评价一个新的预测模型、评价指标,总会用到ROC曲线。他的知识很简单,但也容易忘记,这里开一个文章,记录一下ROC分析的精要。

ROC的全名叫做Receiver Operating Characteristic(受试者工作特征曲线 )。ROC曲线以真正例率TPR为纵轴,以假正例率FPR为横轴,在不同的阈值下获得坐标点,并连接各个坐标点,得到ROC曲线。ROC研究得数据包括两个变量:金标准和测试器值,也就是你要的数据就两列。

TPR:真阳率=测试为真实际为阳/实际为阳

FPR:假阳率=测试为真实际为阴/实际为阴

以上的阳和阴是因为ROC分析多用于医学研究,比如你做检查,医生会说阳性,就代表有问题,可能有疾病,如果你的检查是阴性一般就没啥问题。这个术语在ROC中出现,让学习统计学、计算机科学得的人会一下子难以适应。其实就是阳性=TRUE 阴性=FALSE,就是CLASSIFY的结果。

上述阈值其实是对给定的样本以值得排序,然后按一定得间距一个个划分阳性和阴性。每划分一次就得到一次结果,讲这个结果体现在二维上话一个个点,拟合起来就是一条曲线,也就是ROC曲线

如何理解ROC曲线

这条曲线一定是以(0,0)未开始,(1,1)为重点。原因很简单,如果都划分为阴性,那么FPR\TPR一定都是0,一旦都划分为阳性,那么曲线一定过(1,1).如果一个检测方式(分类器)越出色,那么TPR的上升一定快于FPR。如果这个分类器聊胜于无,那么曲线一定围绕Y=X这条线.

关于最佳切点

当你的研究在于展现最佳CUTOFF点的时候,ROCit包是非常有用的,我认为再这么多ROC绘制的包内是最好的。

ROCit包可以画ROC曲线,他的独特优点是可以凸显CUTOFF

正响应和负响应的累积密度。KS统计数据显示两条曲线之间的最大距离

载入包和数据

library(ROCit)
data("Loan")
summary(Loan$Status)

得到真实结局和测试分数

class <- ifelse(Loan$Status == "FP", 0, 1)
score <- Loan$Score

画出ROC曲线计算AUC,P

rocit_object_empirical <- rocit(score = score, class = class)
summary(rocit_object_empirical)
plot(rocit_object_empirical, YIndex = T, values = T)

为ROC曲线添加置信区间

rocit_emp <- rocit(score = score, class = class, method = "emp")
ciROC_emp90 <- ciROC(rocit_emp, level = 0.9)
plot(ciROC_emp90, egend = TRUE)

画出正负响应密度图,最大切点值得确定

roc_emp <- rocit(score = score, class = class) # default method empirical
kplot1 <- ksplot(roc_emp)

关于AUC

AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。

下面ROCA曲线和ROCB曲线哪条曲线对应的分类器效果更好呢?

以上引用自:https://blog.csdn.net/m0_48520385/article/details/118636338

根据TPR和FPR的公式我们可知,TPR的分母P和FPR的分母N对应于同一个测试集都是不变的,在分类过程中如果想获得更准确的分类结果,我们需要让TP更可能的大,FP更可能的小,也就是说我们想让TPR尽可能的大,FPR尽可能的小,故而在左边的二维空间内,曲线越靠近左上角,效果越好。

那么我们可不可以通过一个值而不是看曲线图的方式来判断曲线A和B哪个分类效果好,我们通过曲线与X轴、坐标(1,0)和(1,1)所连成的直线围成的面积来判断曲线A和B所对应的分类器的分类效果,面积越大,则说明该分类器越好,这个面积就是我们所说的AUC值。

简单说:AUC值越大的分类器,正确率越高。

AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。

0.5<AUC<1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

AUC=0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

AUC<0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测,因此不存在 AUC<0.5 的情况。

多分类问题的AUC以后展开。

猜你喜欢

转载自blog.csdn.net/weixin_43250801/article/details/129090282