TASK 4 建模调参

TASK 4 建模调参
总结自《Datawhale 零基础入门数据挖掘-Task4 建模调参》-小雨

模型构建

1)Python中的Sklearn库对常用模型已经很好的集成了,一些集成学习也包括其中。XGBoost模型和LightGBM也是相关竞赛中常用的模型,效果很好。可以通过pip进行安装。回归模型常用的损失函数主要为MSE。
2)回归模型:包括线性回归模型、Lasso回归、Ridge回归等。可用优化方法主要包括最小二乘和梯度下降。
3)集成学习模型:集成学习主要包括bagging和boosting等技术,bagging主要是通过对多个模型进行加权,模型之间要有差异,而boosting技术通过对样本进行加权,模型对错误的样本着重学习。XGBoost和LightGBM等集成学习可以提升模型的泛化能力。
4)这些回归模型、集成模型也可以作为嵌入式特征选择对特征进行辅助评价。

性能验证

1)可通过交叉验证、留一验证进行模型评价,其中,交叉验证方法可以将训练数据集划分成N份,每次选其中一份作为验证集,其他都作为训练集进行模型训练,这个训练过程共进行N次。
2)绘制学习率和验证曲线,验证曲线可以发现模型是否过拟合。

模型调参

1)模型调参的主要任务是以模型的评价指标为目标,采用不同的寻优算法对模型的参数进行寻优操作。
2)贪心算法:贪心算法主要指在对问题求解时,总是做出在当前看来是最好的选择,也就是某种意义上的局部最优解,贪心策略使用前提是局部最优策略能导致产生全局最优解。
3)网格调参:这个方法是通过循环遍历,尝试每一种参数组合,返回最好的参数组合。但是这个方法效率较低。
4)贝叶斯调参:主要通过基于目标函数的过去评估结果建立替代函数(概率模型),来找到最小化目标函数的值,贝叶斯方法与随机/网格法不同在于尝试下一组超参数时会参考之前的评估结果。

个人理解和总结

1)回归模型还有很多种,还有包括支持向量回归、神经网络、深度神经网络等模型,不同的模型适合不同的数据集,而且现在还有一些方法把回归问题转换成分类问题进行处理,不同的业务问题也有不同的解决方法。因此,对于一个业务问题,需要多尝试不同的模型的性能。
2)性能调参也是十分重要的提升模型的手段,比如神经网络、深度神经网络等模型,超参数极多,也无统一适用规律。因此需要性能调参技术对模型性能进行提升。由于目前了解浅薄,知道的对深度神经网络高效调参的技术不多,还需多深入探究。

以天池二手车价格预测为例进行实践探索:

1)本次在特征工程的基础上,采用五折交叉验证、XGBoost方法进行建模分析,同时采用网格寻优技术对进行调参优化。

发布了5 篇原创文章 · 获赞 0 · 访问量 331

猜你喜欢

转载自blog.csdn.net/lybch1/article/details/105232214