pyplot.hist直方图可视化特征信息

在机器学习中,我们需要人工筛选有用的特征信息,以便快速准确的分类;

我们希望特征信息是独立的,例如英寸,厘米都是度量的,彼此之间是相关的,我们不需要都作为特征信息;

通过pyplot.hist直方图,对已二分类如果选用了该特征,几乎是出现50:50可能性,则说明该特征无用。

import numpy as np
import matplotlib.pyplot as plt
# 假设有一千只狗,greyhounds灰狗500只,labs拉布拉多500只。
greyhounds=500 #灰猎犬
labs=500       #拉布拉多
np.random.seed(0) #随机种子,保证每次随机的一样。
grey_height=28+4*np.random.randn(greyhounds) #身高服从正态分布
lab_height=24+4*np.random.randn(labs)
plt.hist([grey_height,lab_height],20,normed=0,stacked=True,color=['r','b']) #关于狗身高的直方图
# 参数20表示bin,即直方图的个数;normed=1表示概率,normed=0表示出现的个数
plt.title('Histogram')
plt.show()

猜你喜欢

转载自blog.csdn.net/jn10010537/article/details/82954664