数据分析随记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/khy19940520/article/details/68925590

1、简略查看数据信息,查看A和B的相关系数

import pandas as pd
train = pd.read_csv('')
print train.info()#查看简略信息
print train[A].corr(train[B])#查看A和B的相关系数
2、统计各个值得出现频率
print train[A].value_counts()

3、缺失值替换

df.loc[ (df.SaleType.isnull()), 'SaleType' ] = 9

4、查看统计缺失值

NAs = pd.concat([train.isnull().sum(), test.isnull().sum()], axis=1, keys=['Train', 'Test'])
NAs[NAs.sum(axis=1) > 0]

5,取出频率出现前5特特征取值

fea_top5=train['positionID'].value_counts().nlargest(5).index.tolist()

6,对dataframe某一列进行排序

df.sort(columns='c')








猜你喜欢

转载自blog.csdn.net/khy19940520/article/details/68925590