机器学习 2 (KNN实例:预测年收入、保存模型)

1、预测年收入

首先我们准备一个带有年收入信息的表
在这里插入图片描述
这个表里面自带每年收入值

1.1、导入需要的包

在这里插入图片描述
读取文件
在这里插入图片描述
在这里插入图片描述

1.2、准备数据y和目标值X

y:我们选取salary(这个salary是前面的取变量名)的最后一列数据salary(这个salary是列名)

X:目标值
在这里插入图片描述
查看X每列的数据类型 :我们发现里面含有str类型的数据,是不能计算距离的
在这里插入图片描述

1.3、转换str类型的数据

先查看X【“workclass”】里面有哪些数据
在这里插入图片描述
先给不同的值组合一个索引
在这里插入图片描述
数据转换:根据提供的索引做映射
在这里插入图片描述
在这里插入图片描述
通过查看表我们发现从第三列开始到倒数第二列都需要转换数据
在这里插入图片描述
接下来将这些需要修改数据类型的列进行批量修改

在这里插入图片描述
查看修改后的X
在这里插入图片描述

1.4、分割数据

导包
在这里插入图片描述
切割X、y
在这里插入图片描述

1.5、训练数据并测试

在这里插入图片描述
提高邻居数量试试
在这里插入图片描述

1.6、数据归一化

1.6.1、数据归一化手动写代码

数据归一化:消除差异性
在这里插入图片描述

数据归一化:https://blog.csdn.net/haoji007/article/details/81157224

在这里插入图片描述
将归一化的数据进行训练和预测:准确率明显提高
在这里插入图片描述
数据归一化第二种方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.6.2、数据归一化包

导包
在这里插入图片描述
Z-score归一化
在这里插入图片描述

min-max归一化在这里插入图片描述

2、保存模型

在这里插入图片描述
保存
在这里插入图片描述
加载看看
在这里插入图片描述
测试数据准确率
在这里插入图片描述
参数comress压缩级别
在这里插入图片描述

本文学习笔记截至P515,18:12

发布了136 篇原创文章 · 获赞 30 · 访问量 7080

猜你喜欢

转载自blog.csdn.net/a__int__/article/details/104627828
今日推荐