1. 单一图表
直方图、密度图、箱线图。
(1)直方图——显示数据分布
一般横轴表示数据类型,纵轴表示分布情况。
直方图可以很直观地展示每个属性的分布状况。公国图表可以很直观地看到数据是高斯分布、指数分布还是偏态分布。
import matplotlib.pyplot as plt
from pandas import read_csv
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
dataset.hist()
plt.show()
从直方图可以看出,separ-length和separ-length符合高斯分布。
(2)密度图——显示数据分布
密度图是一种表现数据值对应的边界或域对象的图形表示方法,一般用于呈现连续变量。
密度图类似于对直方图进行抽象,用平滑的线来描述数据的分布。
import matplotlib.pyplot as plt
from pandas import read_csv
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
dataset.plot(kind='density',subplots=True, layout=(2,2),sharex=False)
plt.show()
(3)箱线图——显示数据分散情况
箱线图也是一种用于显示数据分布状况的手段。首先画一条中位线,然后以下四分位数和上四分位数画一个盒子,上下各有一条横线,表示上边缘和下边缘,通过横线来显示数据的伸展状况,游离在边缘之外的点为异常值。
import matplotlib.pyplot as plt
from pandas import read_csv
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
dataset.plot(kind='box',subplots=True, layout=(2,2),sharex=False)
plt.show()
2.多重图表
1)相关矩阵图
相关矩阵图主要用来表示两个不同属性之间的相互影响的程度。