《机器学习Python实践》第6章——数据理解

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
#1.简单地查看数据
peek=dataset.head(10)
print(peek)
#2.查看数据维度
print(dataset.shape)
#3.数据属性和类型
print(dataset.dtypes)

这里写图片描述

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)

#4.描述性统计
#可以通过DataFrame的describe()方法来查看描述性统计的内容。
#这个方法给展示了8方面的信息:数据记录数、均值、标准方差、最小值、最大值、下四分位数、
#中位数、上四分位数、最大值。
set_option('display.width',100)
#设置数据的精确度
set_option('precision',2)
print(dataset.describe())

这里写图片描述

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)

#5.数据分组分布(适用于分类算法)
print(dataset.groupby('class').size())

这里写图片描述

6. 数据属性的相关性

数据属性的相关性是指数据的两个属性是否互相影响,以及这两种影响是什么方式的等。
非常通用的是计算两个属性的相关性的方法是皮尔逊相关系数——度量两个变量见相关程度的方法。(皮尔逊相关系数,值介于1和-1之间。1表示完全正相关,0表示无关、-1表示完全负相关)
在机器学习中,当数据的相关性比较高时,有些算法(如Linear、逻辑回归算法等)的性能会降低。
当数据的特征的相关性比较高时,应该考虑对特征进行降维处理。
通过使用DataFrame的corr()方法来计算数据集中数据属性之间的关联关系矩阵。

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
set_option('display.width',100)
#设置数据的精确度
set_option('precision',2)
#6. 数据属性的相关性
print(dataset.corr(method='pearson'))

这里写图片描述

7. 数据的分布分析

通过分析数据的高斯分布情况来确认数据的偏离情况。
在很多机器学习算法中都会假定数据遵循高斯分布,先计算数据的高斯偏离状况,在格局偏离状况准备数据。
我们可以使用DataFrame的skew()方法来计算所有数据属性的高斯分布偏离情况。

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
set_option('display.width',100)
#设置数据的精确度
set_option('precision',2)
#7. 数据的分布分析
print(dataset.skew())

这里写图片描述
skew()函数的结果显示了数据分布是左偏还是右偏。当数据接近0时,表示数据的偏差非常小。

猜你喜欢

转载自blog.csdn.net/zhenaoxi1077/article/details/80569536
今日推荐