机器学习之下采样

逻辑回归是一种预测分类结果的线性模型。它使用逻辑函数（通常是Sigmoid函数）来将线性模型的输出转换为概率。逻辑回归的目标是最小化预测概率和实际标签之间的误差，这通常通过梯度下降等优化算法实现。

在许多实际应用中，数据集往往是不平衡的，即某些类别的样本数量远多于其他类别。这种不平衡可能导致模型偏向于多数类，从而影响少数类的预测性能。

下采样是一种处理不平衡数据集的方法，通过减少多数类的样本来平衡数据集。在下采样过程中，可以从多数类中随机选择样本进行删除，直到多数类和少数类的样本数量达到一个相对平衡的状态。

逻辑回归与下采样相结合，可以处理不平衡数据集上的二分类问题。

导入相关的包，并绘制混淆矩阵，其中对应包的作用如下：

pandas：用于数据处理和分析。

matplotlib.pyplot：用于绘制图形，这里主要用于绘制散点图来直观展示数据之间的关系。

numpy：提供了高性能的多维数组对象以及这些数组的操作。

读取数据：使用pandas库读取creditcard.csv文件。

数据标准化：使用StandardScaler对Amount列进行标准化处理，使其符合正态分布。

删除无用列：删除Time列，因为它对欺诈检测不是很有用

交叉验证：通过交叉验证（cross_val_score）来找到最佳的正则化参数C，这里使用召回率（recall）作为评分指标。使用最佳参数C建立最终模型，并在训练集和测试集上进行预测。

8、调整参数和性能评估

阈值调整：通过调整预测概率的阈值来探索不同阈值对召回率的影响。逻辑回归模型输出的是属于每个类别的概率，通过调整这个阈值，可以改变预测结果。

下采样是一种处理类别不平衡问题的技术，它通过减少多数类样本的数量来平衡数据集。

优点：平衡数据：减少多数类样本，使类别更均衡。降低计算成本：数据量变小，训练更快。减少模型偏差：防止模型过度关注多数类。

缺点：丢失信息：删除样本可能导致重要信息丢失。

可能引入偏差：随机删除样本可能扭曲数据分布

对少数类敏感：如果少数类样本很少，下采样后数据可能太少，导致过拟合。