ml混淆矩阵的理解

对于二分类问题

可以用混淆矩阵来评价

而更重要的就是ROC


首先介绍几个定义:

TP rate:就是正类的召回率,正确判断为正类/所有的正类,TP/TP+FN,就是recall

TN rate:就是负类的召回率,正确判断为负类/所有的负类,TN/TN+FP

那么:

FP rate:就是负类的未召回率,FP/TN+FP,和TN rate相加是1

同样:

针对TP rate也有正类的未召回率,这里不做考虑


ROC是在表示这么一个事情:

    我们在识别出正类的同时,也把负类当成了正类

    我们要想识别更多的正类,就会把更多的负类当成正类

    前者是收获,后者是代价

    前者就是TPR,后者就是FPR

ROC是在表示他们之间的关系,如果一个二分类器,我们拟合了他的条件概率

这时我们需要一个阈值来决定归为哪一类

如果阈值增加,则我们把更少的类归为正类,那么收获TPR肯定下降,但是代价FPR也会下降

同理,阈值减少,我们把更多的类归为负类,那么收获TPR就会上升,但是代价FPR也会上升

我们想要拥有一个分类器:

    代价小,收获高,就是图中的绿色

    代价高,收获小,就是图中的紫色

    

图上的每个点都对应一个阈值,横竖坐标代表:在此阈值下的代价和收获的关系

那么什么是AUC呢

    就是ROC与x轴围成的面积,很显然越大越好



猜你喜欢

转载自blog.csdn.net/f2h3k999/article/details/79933207