一、过拟合的本质与危害
1.1 过拟合的定义
过拟合(Overfitting)是机器学习模型在训练过程中过度适应训练数据中的噪声或偶然规律,导致在测试数据或实际应用场景中泛化能力显著下降的现象。其本质是模型复杂度远高于数据真实规律,表现为:
• 训练指标优异:在训练集上的准确率极高(如99%),损失值极低;
• 测试指标骤降:测试集准确率可能低于80%,且损失值远高于训练阶段;
• 决策边界异常:分类问题中出现锯齿状分界线,回归问题中曲线剧烈震荡。
1.2 过拟合的成因分析
根据经典机器学习理论,过拟合主要由以下因素导致:
- 数据量不足:训练样本过少,无法覆盖真实数据分布(如仅用100张图片训练图像分类器);
- 模型复杂度过高