处理不平衡数据集是机器学习中的一个重要问题,因为模型可能会偏向于多数类,导致对少数类的预测不准确。以下是一些处理不平衡数据集以提高模型准确性的技术:
1. 数据重采样(Resampling)
**过采样少数类(Oversampling Minority Class)**:
- 使用`imbalanced-learn`库中的`SMOTE`(Synthetic Minority Over-sampling Technique)技术生成合成样本。
- 代码示例:
from sklearn.metrics import classification_report
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
**欠采样多数类(Undersampling Majority Class)**:
- 减少多数类的样本数量,使其与少数类平衡。
- 代码示例:
```python
from imblearn.under_sampling import RandomUnderSampler
under_s