非平衡数据集的机器学习常用处理方法

作者:离散木木夕

欢迎大家给出宝贵的建议!


非平衡数据集的机器学习常用处理方法



1.收集更多的数据


2.尝试改变性能评价标准:【当数据不平衡,准确度已经失去了它原有的意义】

(1)混淆矩阵

(2)精度


(3)召回率


(4)F1分数(权衡精度和召回率)


(5)Kappa(衡量分类精度)

(6)Roc曲线(曲线面积就是AUC)


3.重采样数据(结合正则化模型)

(1)过采样  只是单纯的重复了正例(最大风险就是对正例过拟合)

(2)欠采样  抛弃了大部分反例数据(可能造成偏差很大的模型)


4.生成合成数据

随机采样样本数目比较少的属性

SMOTE,合成少数类过采样技术【本算法基于“插值”来为少数类合成新的样本,存在一定盲目性】


考虑该少数类【正例】的一个样本i,其特征向量为

(1)首先从该少数类的全部T个样本中找到Xi的K(用户自行选择)个近邻(例如用欧式距离),记为

(2)然后从这k个近邻中随机选择一个样本Xi(nn),再生成一个0到1之间的随机数,从而合成一个新样本Xi1:


(3)讲步骤2重复进行N次,从而可以合成N个新样本:。那么,对全部的T个少数类样本进行上述操作,便可为该少数类合成N个新样本【N必须是正整数】



如果样本特征是2维,每个样本都可以用一个点表示。那Xi1相当于Xi和Xi(nn)之间的一个点。相当于“插值”。


5.使用不同的算法

尝试不同的方法,决策树一般在不平衡数据集上表现的比较好。


6.尝试惩罚模型

就是添加新的惩罚项到cost函数中(比如带惩罚项的SVM),以使得小样本的类别被判断错误的cost更大,迫使模型重视小样本的数据。


7.使用不同的视角

有专门领域和算法做这个(不平衡数据集)

比如异常检测


8.尝试新的改进

把样本比较多的类别,分解为一些更多的小类别。

比如区分数字0和其他数字。可以把其他数字分为0~9类。

猜你喜欢

转载自blog.csdn.net/jonyhwang/article/details/80975649
今日推荐