机器学习之下采样

一、简介

         逻辑回归是一种预测分类结果的线性模型。它使用逻辑函数(通常是Sigmoid函数)来将线性模型的输出转换为概率。逻辑回归的目标是最小化预测概率和实际标签之间的误差,这通常通过梯度下降等优化算法实现。

        在许多实际应用中,数据集往往是不平衡的,即某些类别的样本数量远多于其他类别。这种不平衡可能导致模型偏向于多数类,从而影响少数类的预测性能。

       下采样是一种处理不平衡数据集的方法,通过减少多数类的样本来平衡数据集。在下采样过程中,可以从多数类中随机选择样本进行删除,直到多数类和少数类的样本数量达到一个相对平衡的状态。

逻辑回归与下采样相结合,可以处理不平衡数据集上的二分类问题。

二、下采样的运用

1、导入相关包

导入相关的包,并绘制混淆矩阵,其中对应包的作用如下:

pandas:用于数据处理和分析。

matplotlib.pyplot:用于绘制图形,这里主要用于绘制散点图来直观展示数据之间的关系。

numpy:提供了高性能的多维数组对象以及这些数组的操作。

2、数据预处理

 

读取数据:使用pandas库读取creditcard.csv文件。

数据标准化:使用StandardScaler对Amount列进行标准化处理,使其符合正态分布。

删除无用列:删除Time列,因为它对欺诈检测不是很有用

3、对数据进行下采样并合并 

 

 

4、绘制下采样的图像 

 

5、划分数据集 

 

6、交叉验证选择最佳参数c 

 

 交叉验证:通过交叉验证(cross_val_score)来找到最佳的正则化参数C,这里使用召回率(recall)作为评分指标。使用最佳参数C建立最终模型,并在训练集和测试集上进行预测。

7、模型训练 

 

8、调整参数和性能评估 

 

 阈值调整:通过调整预测概率的阈值来探索不同阈值对召回率的影响。逻辑回归模型输出的是属于每个类别的概率,通过调整这个阈值,可以改变预测结果。

三、总结

下采样是一种处理类别不平衡问题的技术,它通过减少多数类样本的数量来平衡数据集。

优点:平衡数据:减少多数类样本,使类别更均衡。降低计算成本:数据量变小,训练更快。减少模型偏差:防止模型过度关注多数类。

缺点:丢失信息:删除样本可能导致重要信息丢失。

可能引入偏差:随机删除样本可能扭曲数据分布

对少数类敏感:如果少数类样本很少,下采样后数据可能太少,导致过拟合。