数据不均衡问题的解决

数据不均衡问题可以使用的方法:

1. 使用正确指标评估权值

AUC_ROC ACC SPEC SENS PPV NPV MCC F1score AUC_PRC

2. 采样 

1).欠抽样
删减大比例类的样本量
2).过抽样
增加小比例类的样本量

3.数据合成

eg:SMOTE算法

4.分类器算法上的改进

1). 更改lost function
2). 针对算法进行合适的更改
Eg.对不同类别分错的代价不同


具体讲一下SMOTE和改进分类器的代价函数

SMOTE算法:

概念:

合成少数类过采样技术,利用小众样本在特征空间的相似性来生成新样本


算法流程:

(1)对于少数类中每一个样本x,欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。 

(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为Xn。

 (3)对于每一个随机选出的近邻Xn,分别与原样本按照如下的公式构建新的样本。



算法的缺陷:

该算法主要存在两方面的问题:
1)在近邻选择时,存在一定的盲目性
需要根据实验结果调整临近点数
2)容易产生分布边缘化问题
可能将边缘复制,产生模糊的边界
3)人造数据不靠谱


C-SVC算法的SVM

对于少类和多类,分别采用不同的惩罚系数c,使得超平面向一类方向偏移


猜你喜欢

转载自blog.csdn.net/sunflower_sara/article/details/81055033