如何做EDA?

结合我之前写的一篇博客来看:http://matafight.github.io/2017/06/24/kaggle%E7%BB%8F%E9%AA%8C/

Step1:导入数据并了解数据轮廓

查看各个特征的基本数据类型并且计算哪些特征缺失值比较多。
将特征的数据类型分为数值型和离散型两大类。

Step2: 分析特征和标签的分布情况

单变量分布

对于连续特征

  1. 给出特征分布(可以不考虑缺失值)
    sns.distplot函数

对于离散特征

  1. 就是看特征分布是否均衡
    sns.barplot函数。
    可以直接用sns.countplot(x='Survived', data=df_train)函数

sns.catplot(x="deck", kind="count", palette="ch:.25", data=titanic)

多变量分布(可以是特征之间也可以是特征与标号之间)

连续变量与连续变量

连续变量与离散变量

sns.boxplot函数,也可以写成sns.catplot(x="day", y="total_bill", kind="box", data=tips);这样的形式。

离散变量与离散变量

对于标签

  1. 回归问题就是画图分布
  2. 离散问题就是看类分布是否均衡

猜你喜欢

转载自www.cnblogs.com/mata123/p/9768011.html