数据不均衡问题可以使用的方法:
1. 使用正确指标评估权值
AUC_ROC ACC SPEC SENS PPV NPV MCC F1score AUC_PRC2. 采样
1).欠抽样删减大比例类的样本量
2).过抽样
增加小比例类的样本量
3.数据合成
eg:SMOTE算法
4.分类器算法上的改进
1). 更改lost function2). 针对算法进行合适的更改
Eg.对不同类别分错的代价不同
具体讲一下SMOTE和改进分类器的代价函数
SMOTE算法:
概念:
合成少数类过采样技术,利用小众样本在特征空间的相似性来生成新样本
算法流程:
(1)对于少数类中每一个样本x,欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为Xn。
(3)对于每一个随机选出的近邻Xn,分别与原样本按照如下的公式构建新的样本。
算法的缺陷:
该算法主要存在两方面的问题:1)在近邻选择时,存在一定的盲目性
需要根据实验结果调整临近点数
2)容易产生分布边缘化问题
可能将边缘复制,产生模糊的边界
3)人造数据不靠谱