python数据挖掘入门与实践（二） - 代码天地

python数据挖掘入门与实践（二）

其他 2019-05-02 03:18:38 阅读次数: 0

用scikit-learn估计器分类
大多数scikit-learn估计器接收和输出的数据格式均为numpy数组或类似格式。
1、读取csv数据文件的方式：

x = np.zeros((a,b),dtype='float')
y = np.zeros((a,),dtype='bool')
with open(path,'r') as f:
    reader = csv.reader(f)
for i,row in enumerate(reader):
    data = [float(datum) for datum in row[:-1]]
    x[i] = data
    y[i] = row[-1] == 'label' (二分类)

2、利用matplotlib作图时，首先要告诉jupyter notebook，我们要在笔记本中作图
%matplotlib inline
3、对数据的预处理。比如：选取最具区分度的特征、创建新特征、对特征进行规范化等
scikit-learn的预处理工具叫作转换器（Transformer），它接受原始数据集，返回转换后的数据集。除了处理数值型特征，转换器还能用来抽取特征。
MinMaxScaler类：把每个特征的值域规范化为0到1之间

from sklearn.preprocessing import MinMaxScaler
x_transfromed = MinMaxScaler().fit_transform(X)

为使每条数据各特征值的和为1，使用sklearn.preprocessing.Normalizer。
为使各特征的均值为0，方差为1，使用sklearn.preprocessing.StandardScaler，常用作规范化的基准。
为将数值型特征的二值化，使用sklearn.preprocessing.Binarizer，大于阈值的为1，反之为0。
4、流水线，跟踪记录数据挖掘的操作过程
流水线的输入为一连串的数据挖掘步骤，其中最后一步必须是估计器，前几步是转换器。每一步都用元组（‘名称’，步骤）来表示。
创建流水线之前，先导入Pipeline对象。
第一个元组规范特征取值范围，第二个元组实现预测功能。我们把第一步叫作规范特征取值（scale），第二步叫作预测（predict），也可以用其他名字。元组的第二部分是实际的转换器对象或估计器对象。

from sklearn.pipeline import Pipeline
scaling_pipeline = Pipeline([('scale',MinMaxScaler()),('predict',KNeighborsClassifier())])

实际运行的时候将参数中的估计器赋值为流水线scaling_pipeline,在该例中，这样的赋值可以直接完成流水线中对数据的标准化处理和指定估计器的操作，所以第二个参数直接设置为原数据集（未经标准化处理）

猜你喜欢

转载自blog.csdn.net/hengaheng/article/details/88091784

python数据挖掘入门与实践（二）

python数据挖掘入门与实践（一）

【python】《Python数据挖掘入门与实践》实验环境搭建

python经典书籍--python数据挖掘入门与实践

Python数据挖掘入门与实践：带你入门数据挖掘技术，应用实际项目

《Python数据挖掘入门与实践》pdf 附下载链接

Python数据挖掘入门与实践-Apriori算法勘误

Python数据挖掘入门与实践-OneR分类算法

Python数据挖掘入门与实践--亲和性分析

python数据挖掘入门与实践---作者归属问题

《python数据挖掘》和《python数据挖掘入门与实践》两本书读后感

python数据挖掘入门与实践---用图挖掘找到感兴趣的人

《python数据挖掘入门与实践》决策树预测nba数据集

python数据挖掘入门与实践--------转换器（数据与处理）与流水线

数据挖掘与python实践 |（一）引言

数据挖掘与python实践 |（一）引言

python数据挖掘与机器学习实践技术

Python数据挖掘入门与实践--用转换器抽取特征

Python数据挖掘入门与实践---用决策树预测获胜球队

Python数据挖掘入门与实践---使用scikit-learn 估计器分类

《Python数据挖掘入门与实践》高清中文版+高清英文版+源代码

分享《Python数据挖掘入门与实践》高清中文版+高清英文版+源代码

python数据挖掘入门与实践----------特征值，主成分分析

python数据挖掘入门与实践-----------通过亲和力分析推荐电影（Apriori）

「数据挖掘入门系列」Python快速入门

Python数据挖掘学习笔记（1）文本挖掘入门

计划与实践（数据挖掘）

《Python数据挖掘入门与实践》高清中文版PDF+高清英文版PDF+源代码

Python数据分析与挖掘（二）

Python数据分析与挖掘（二）--- matplotlib

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)