模型评价标准

机器学习

机器学习是通过一些让计算机可以自动学习的算法,从数据中分析获得规律,然后利用规律对新样本进行预测。

评价标准

为了了解模型的泛化能力,即判断模型的好坏,我们需要用某个指标来衡量,有了评价指标,就可以对比不同模型的优劣,对模型进行针对性地调参优化。

随着机器学习在不同领域中的应用,其评价方式需要和实际业务相结合,通过确定目标来定量设计评价标准。以下总结出不同类别模型的通用评价指标。

分类模型

用于分类的模型评价以准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分值(F1 Score)为主,辅以ROC、AUC并结合实际应用场景进行结果评价。

准确率
预测正确的结果占总样本的百分比
公式如下:准确率 = ( TP + TN ) / ( TP + TN + FP + FN )
TP: 真正例,即将正类预测为正类数
TN:真负例, 即将负类预测为负类数
FP:假正例,即将负类预测为正类数,也称误报
FN:假负例,即将正类预测为负类数,也称漏报

虽然准确率可以判断总的正确率,但当样本不平衡的情况下,并不能作为很好的指标来衡量模型效果。

精确率
精确率又叫查准率,代表对正样本结果中的预测准确程度。精确率描述模型有多准,即在预测为正例的结果中,有多少是真正例。
公式如下:查准率P = TP / ( TP + FP )

精确率高意味着误报率低。

召回率
召回率又叫查全率,描述模型有多全,即在所有正例样本中,有多少被模型预测为正例。
公式如下: 查全率R = TP / ( TP + FN )

召回率高意味着漏报率低。

F1分值

精确率和召回率是矛盾的,无法做到双高。想要在P和R直接找到一个平衡点,就需要一个新的指标,F1 Score。

F1 Score同时考虑精确率和召回率,使二者取个平衡,同时达到最高。
公式如下: F1 = 2PR / ( P + R)

检测模型

IoU
mAP

mAP 这个术语有不同的定义。此度量指标通常用于信息检索、图像分类和目标检测领域。然而这两个领域计算 mAP 的方式却不相同。这里我们只谈论目标检测中的 mAP 计算方法。

将P-R曲线下的面积定义为AP,AP衡量的是训练好的模型在某个类别上的好坏,而mAP描述的模型在所有类别上的好坏。mAP是对AP求平均值,所有求出AP后即可很容易得到mAP。

mAP 常作为目标检测算法的评价指标,具体来说就是,对于每张图片检测模型会输出多个预测框(远超真实框的个数),我们使用 IoU (Intersection Over Union,交并比)来标记预测框是否预测准确。标记完成后,随着预测框的增多,查全率 R 总会上升,在不同查全率 R 水平下对准确率 P 做平均,即得到AP,最后再对所有类别按其所占比例做平均,即得到 mAP 指标。

参考 https://zhuanlan.zhihu.com/p/360539304

聚类模型

聚类的神经网络数据源没有进行标记,评价按照聚类算法的标准来操作,如RMSSTD、R Square、SRP等。待补充。

猜你喜欢

转载自blog.csdn.net/jane_xing/article/details/128725806