深度学习理论——P-R曲线&原始数据类别不平衡问题

大家好,继续理论学习日记。本次简要介绍一些基本概念,不涉及公式推导。

1.P-R曲线

首先介绍四个概念


精度:分类正确的样本数/样本总数

错误率:分类错误的样本数/样本总数

查准率P:TP/(TP + FP) 判对的 正例样本数/判为正例的总样本数

查全率R:TP/(TP + FN) 判对的正例样本数/真实为正例的总样本数

P-R曲线就是以查准率为纵轴,查全率为横轴得到的可以反映模型分类性能的曲线。我们可以粗略地认为曲线包裹的面积越大其预测性能越好。


2.原始数据类别不平衡问题

类别不平衡指的是原始数据中正例和反例的数量差距过大,一般有三个解决办法(假设正例少,反例多的情况下)。

(1)对正例进行过采样:注意不能简单地对样本进行重复采样,会造成过拟合,一般是对正例进行插值,旋转来产生额外的正例

(2)对反例进行欠采样:注意不能一味地随机丢弃反例,这样做可能会丢失一些重要信息,一般的做法是采用集成学习的思想,将反例划分为若干个集合供不同的学习器学习,这样针对每个学习器来说都对反例进行了欠采样但整体反例的信息并没有丢失。

(3)正例反例再缩放:假设分类时是正例的几率为y,是反例的几率为1 - y,数据中正例的数目为(m+),反例的数目为(m-),则在阈值为0.5的情况下,一般y/(1 - y)>1我们判断为正例,加上正例反例的比例再缩放后就变成(y*(m-))/((1 - y)*(m+))>1为正例。也可以将m+表示为正例误判为反例的代价,m-表示为反例误判为正例的代价,转化为代价敏感问题。


主要是平时大概了解的一些概念,现在清楚地总结一下,给自己mark,我们下期见!

猜你喜欢

转载自blog.csdn.net/Miss_yuki/article/details/80894372
今日推荐