1. 基本符号含义

符号	含义
TP	将正类预测为正类
FN	将正类预测为负类
FP	将负类预测为正类
TN	将负类预测为负类

	实际为正	实际为负
预测为正	TP真正例	FP假正例
预测为负	FN假负例	TN真负例

P(positive) 和 N(negative) 表示样本被预测为“正”还是“负”，或者是1或0；
T(true) 和 F(false) 这一对符号代表预测正确or错误，也就是 “真”or"假" 。如果实际为正，预测也为正，或实际为负，预测也为负，即二者保持一致，则用 T ，否则是 F 。
这样就好记一些，比如TN，一看就是样本被预测为负类，但是预测结果是正确的，说明其实际也为负类的情况。

2. 查准率与查全率

指标	公式	含义
真正率TPR	$TPR=\dfrac{TP}{TP+FN}$	实际为正的样本中，预测为正的比例（查全率）
真负率TNR	$TNR=\dfrac{TN}{TN+FP}$	实际为负的样本中，预测为负的比例
假正率FPR	$FPR=\dfrac{FP}{TN+FP}$	实际为负的样本中，预测为正的比例
假负率FNR	$FNR=\dfrac{FN}{FN+TP}$	实际为正的样本中，预测为负的比例

指标	公式	含义
精确率Precision	$\dfrac{TP}{TP+FP}$	预测为正的样本中实际也正的比例
召回率Recall	$\dfrac{TP}{TP+FN}$	实际为正的样本中预测也正的比例
准确率Accuracy	$\dfrac{TP+TN}{TP+TN+FN+FP}$	所有样本中被预测正确的比例

精确率即查准率，表示预测为正的样本中，有多少实际也为正；
召回率即查全率，表示实际为正的样本中，有多少预测为正；

因为所谓“正类”，是我们自己定义的更加关注的类，我们在所有样本中扫描检查它们，所谓“准”和“全”都是针对正类而言的，以银行欺诈行为举例，定义欺诈用户为“正类”：

查准率即查得准不准，我们认为欺诈的人他就是真正欺诈了，没有冤枉一个好人；
查全率即查得全不全，我们是不是把欺诈用户都查出来了，没有放过一个坏人。

想要查得全，一般稍微有点可疑就要认为他欺诈；想要查得准，就不能草木皆兵，要欺诈嫌疑非常高材认定其欺诈，所以这两个指标一般不可兼得，即：一般查准率越高查全率越低。

不同的场景下对于查准率和查全率的要求也是不一样，比如推荐系统中比较倾向于高查准率低查全率，为了尽可能的不影响用户体验实现更精准推荐。而抓捕逃犯的系统中更需要高的查全率，误抓也不能漏抓。

3. P-R曲线与F1-score

如果没有那么明确的需求说P和R需要哪一个更高，可以通过P-R曲线来选取一个双高的点。

一般的判断方法是：

包围的面积越大越好（图中A的面积最大）
找P=R的的点，在该点处数值更大的模型比较好（A对应的平衡点也是最优的）

F1-Score指标综合了Precision与Recall的结果，认为二者同等重要，是二者的调和平均数。 F1-Score的取值范围从0到1的，1代表模型的输出最好，0代表模型的输出结果最差。其中，F1的1就是Recall相对于Precision的重要程度，1代表相同，2代表Recall重要性是Precision的两倍。 $F_1score=\dfrac{2×Precision×Recall}{Precision+Recall}=\dfrac{2×TP}{样例总数+TP-TN}$

4. ROC与AUC

ROC全称是“受试者工作特征曲线”，ROC 曲线 $x$ 轴表示的是假正率， $y$ 轴表示的是真正率，ROC底部的面积被称为AUC。ROC曲线越是靠左上角，说明分类器越好；AUC对样本类别是否均衡并不敏感，这也是不均衡样本通常采用AUC评价分类性能的原因。

扫描二维码关注公众号，回复： 14771576 查看本文章

分类问题的评价指标

目录

1. 基本符号含义

2. 查准率与查全率

3. P-R曲线与F1-score

4. ROC与AUC

猜你喜欢