干货福利,第一时间送达

导读:
相信很多朋友都了解过数据科学类竞赛,但很多时候是不知道如何下手去解决一个任务,换句话说,拿来一份数据并不知道需要哪些预处理步骤,如何做特征工程,该怎么做集成等这些问题。
今天宝器分享一份数据科学竞赛的解决方案,非常详细的讲解了思路并且附有代码讲解和数据集。
本次内容目录:
1、竞赛地址:
http://www.pkbigdata.com/common/cmpt/ANZ%20Chengdu%20Data%20Science%20Competition_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html?lang=en_US
2、竞赛任务:
预测(使用提供的数据集)客户是否订购定期存款,主要是使用数据分析和先进的机器习算法分析客户的多维银行信息和客户行为特征来设计具有高差异化能力和高精度的客户。
3、方案思路:
3.1 数据分析
*分析每个特征的分布情况,可找到的数据分布特点。
*分析特征和目标特征的相关情况,对构建特征的指导意义。
*缺失特征情况展示。
*PCA降维分析图
3.2 数据预处理
*重要且缺失少的特征的补全
*类型转编码
3.3 特征工程
*构建分箱离散化特征
*构建交叉特征
*构建排序特征
*使用贪心+模型法进行特征筛选
*使用贪心+皮尔顿相关系数去除高相关性特征
3.4 模型融合
*lgb模型
*xgb模型
*GBDT模型
*NN+GBDT模型
*GBDT+LR模型
*五种模型的加权融合
4、方案报告(限于篇幅截取部分图展示)
5、代码+数据集汇总(篇幅原因做部分截图展示)
说明:代码含详细讲解步骤,格式为ipyb文件。
代码少部分截图:
资源获取:
以上全部内容已上传至 DA for the learner 2群
扫以下二维码即可入群,如果二维码不能扫描请后台私信或添加宝器微信拉你入群。
之前的QQ资源分享群已解散,日后会在微信2群分享资源交流。