1. 在模型评估过程中,过拟合和欠拟合具体指什么现象
过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是:欠拟合时候,偏差比较大;而过拟合时,偏差较小但方差较大。
2. 降低过拟合和欠拟合的方法
2.1. 降低过拟合的方法
-
特征 – 减少不必要的特征
- 根据特征的重要性,直接删除不重要的特征。
- 通过收集更多的数据,或者用数据增广的方法,产生更多的训练数据,从而防止模型学习不想关的特征。
-
模型复杂度 – 降低模型复杂度
- 神经网络,减少网络的层数和神经元的个数(例如Dropout)。
- 决策树模型中降低树的深度,进行剪枝。
-
正则化 - 加入正则化项,并提高正则化项的系数
- 对复杂模型和系数比较大的模型进行惩罚,使得算法倾向于训练出简单的模型。
-
多模型决策
- 采用 Bagging 或者 Stacking 的集成方法;将多个模型融合起来共同决策;以减少模型预测的 variance。
-
模型训练
- 训练模型时采用早停策略或采用知识蒸馏方法进行训练。
-
数据目标 – 平滑目标
- 比如用于分类任务的标签平滑方法,即在One-hot表示的Ground True标签里面,将值为1那一位上 的一小部分值减掉,均分到其他值为0的位值上。
2.2. 降低欠拟合的方法
-
特征 – 添加新特征
- 比如上下文特征,ID类特征,组合特征等等。
-
模型复杂度 – 增加模型复杂度
- 比如在线性模型中添加高次项。
- 在神经网络模型中增加网络层数或者神经元个数。
-
正则化 – 减少正则化项的系数,提高模型的学习能力。