天池-AI美年健康大赛初赛-xgboost模型

其他 2018-07-11 12:13:30 阅读次数: 0

代码：https://github.com/wucj123/ML

大赛链接地址：

https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.60df342dStsN0q&raceId=231654

竞赛数据

两个特征文件 data_part1 和 data_part2，每个文件第一行是字段名，之后每一行代表某个指标的检查结果（指标含义已脱敏）。每个文件各包含3个字段，分别表示病人id、体检项目id 和体检结果，部分字段在部分人群中有缺失。其中，体检项目id字段，数值相同表示体检的项目相同。体检结果字段有数值和字符型，部分结果以非结构化文本形式提供。

标签文件 train.csv，是训练数据的答案：包含六个字段，第一个字段为病人id，与上述特征文件的病人id有对应关系，之后五个字段依次为收缩压、舒张压、甘油三酯、高密度脂蛋白胆固醇和低密度脂蛋白胆固醇。

初赛提交

选手提交格式参考示例文件 test.csv，包含一个病人id列和五个预测指标列，提交结果不包含第一行表头。

解决方案

1、对两个data文件中数据进行初步格式化处理，使用pandas库，将八十多万条数据进行去重，拼接以及行列转换，最终得到五万多个病人稀疏诊断特性。数据格式第一列为病人ID，第一行为特征。

2、从整理后的特征中，筛选掉缺失率大于0.92的稀疏特征，将诊断特征数量减少到300多种。

3、搭建xgboost模型，利用xgboost中train和predict函数，进行测试训练。利用sklearn中gridsearch函数，进行参数遍历。可参考https://blog.csdn.net/u012969412/article/details/72973055

总结：

因为参加时间太晚，最后勉强进入复赛。还有很多可以改进地方，

1、比如我最后只选择了数字特征进行预测，其实可以加入文字特征，包括简单文字特征（某一特征有无或是否，可用数字替换），以及长文字采用NLP重点特征提取。

2、数字特征没有进行标准化处理，缺失值未经处理。经标准化，缺失值可用0代替。

猜你喜欢

转载自blog.csdn.net/qq_41994006/article/details/80808043

天池-AI美年健康大赛初赛-xgboost模型

首次试水天池数据大赛——7个小时玩了把美年健康AI大赛

实战美年健康AI大赛之四_复赛使用数加平台

实战美年健康AI大赛之三_大数据量的简化

实战美年健康AI大赛之二_相关问题与思考

实战美年健康AI大赛之一_自然语言处理

【阿里ai】天池大赛

瞄准肺部CT多病征智能诊断，广西天池大赛深化“AI+医疗”共建“健康广西”

美团2018年CodeM大赛-初赛B轮 1.开关灯

美团2018年CodeM大赛-初赛B轮 B 配送

美团2018年CodeM大赛-初赛B轮 C题低位值

美团2017年CodeM大赛-初赛A轮 C合并回文子串

美团2017年CodeM大赛-初赛B轮黑白树 (树形dp)

天池雪浪制造AI挑战赛（初赛）

天池优惠卷预测--XGBoost训练模型

天池AI大赛智能制造预测赛题

天池大赛 xgboost/lightgbm + python36 + win10_64 环境配置

天池-优惠卷预测大赛-模型预测

天池 DeepRec CTR 模型性能优化大赛 - 夺冠技术分享

2023年金融科技建模大赛（初赛）开箱点评

天池-工业预测总结-XGBoost

牛客网-2018 美团 CodeM 编程大赛-初赛 A 轮-3-城市漫游

牛客网-2018 美团 CodeM 编程大赛-初赛 A 轮-2-下棋

牛客网-2018 美团 CodeM 编程大赛-初赛 A 轮-1-遥控按键

牛客网-2018 美团 CodeM 编程大赛-初赛 B 轮

牛客网-2018 美团 CodeM 编程大赛-初赛 B 轮-3-低位值

牛客网-2018 美团 CodeM 编程大赛-初赛 A 轮

牛客网-2018 美团 CodeM 编程大赛-初赛 B 轮-4-神奇盘子

牛客网-2018 美团 CodeM 编程大赛-初赛 B 轮-1-开关灯

2018美团CodeM编程大赛初赛B轮 A题开关灯

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)