TASK 4 建模调参
总结自《Datawhale 零基础入门数据挖掘-Task4 建模调参》-小雨

模型构建

1）Python中的Sklearn库对常用模型已经很好的集成了，一些集成学习也包括其中。XGBoost模型和LightGBM也是相关竞赛中常用的模型，效果很好。可以通过pip进行安装。回归模型常用的损失函数主要为MSE。
2）回归模型：包括线性回归模型、Lasso回归、Ridge回归等。可用优化方法主要包括最小二乘和梯度下降。
3）集成学习模型：集成学习主要包括bagging和boosting等技术，bagging主要是通过对多个模型进行加权，模型之间要有差异，而boosting技术通过对样本进行加权，模型对错误的样本着重学习。XGBoost和LightGBM等集成学习可以提升模型的泛化能力。
4）这些回归模型、集成模型也可以作为嵌入式特征选择对特征进行辅助评价。

性能验证

1）可通过交叉验证、留一验证进行模型评价，其中，交叉验证方法可以将训练数据集划分成N份，每次选其中一份作为验证集，其他都作为训练集进行模型训练，这个训练过程共进行N次。
2）绘制学习率和验证曲线，验证曲线可以发现模型是否过拟合。

模型调参

1）模型调参的主要任务是以模型的评价指标为目标，采用不同的寻优算法对模型的参数进行寻优操作。
2）贪心算法：贪心算法主要指在对问题求解时，总是做出在当前看来是最好的选择，也就是某种意义上的局部最优解，贪心策略使用前提是局部最优策略能导致产生全局最优解。
3）网格调参：这个方法是通过循环遍历，尝试每一种参数组合，返回最好的参数组合。但是这个方法效率较低。
4）贝叶斯调参：主要通过基于目标函数的过去评估结果建立替代函数（概率模型），来找到最小化目标函数的值，贝叶斯方法与随机/网格法不同在于尝试下一组超参数时会参考之前的评估结果。

个人理解和总结

1）回归模型还有很多种，还有包括支持向量回归、神经网络、深度神经网络等模型，不同的模型适合不同的数据集，而且现在还有一些方法把回归问题转换成分类问题进行处理，不同的业务问题也有不同的解决方法。因此，对于一个业务问题，需要多尝试不同的模型的性能。
2）性能调参也是十分重要的提升模型的手段，比如神经网络、深度神经网络等模型，超参数极多，也无统一适用规律。因此需要性能调参技术对模型性能进行提升。由于目前了解浅薄，知道的对深度神经网络高效调参的技术不多，还需多深入探究。

以天池二手车价格预测为例进行实践探索：

1）本次在特征工程的基础上，采用五折交叉验证、XGBoost方法进行建模分析，同时采用网格寻优技术对进行调参优化。

lybch1

发布了5 篇原创文章 · 获赞 0 · 访问量 331

私信关注

TASK 4 建模调参

模型构建

性能验证

模型调参

个人理解和总结

以天池二手车价格预测为例进行实践探索：

猜你喜欢