python数据清洗之学习总结(五、数据清洗之数据统计)

1.数据分组运算

  1. 使用groupby方法进行分组计算,得到分组对象GroupBy
  2. 语法为df.groupby(by=)
  3. 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、 median、 max和min等
    在这里插入图片描述

2. 聚合函数使用

  1. 对分组对象使用agg聚合函数
  2. Groupby.agg(func)
  3. 针对不同的变量使用不同的统计方法
    在这里插入图片描述
    在这里插入图片描述

3. 分组对象与apply函数

  1. 函数apply即可用于分组对象,也可以作用于dataframe数据
  2. Groupby.apply(func)
  3. 需要注意axis=0和axis=1的区别
    在这里插入图片描述
    在这里插入图片描述

4. 透视图与交叉表

透视图

pivot_table( data, index, columns,values, aggfunc, fill_value, margins, margins_name=)
index,columns 行分组键,列分组键
value 分组的字段,只能为数量型变量
aggfunc 后接聚合函数
margins 是否需要总计
margins_name 总结名称 默认为 all
在这里插入图片描述

交叉表用于计算分组频率

pd.crosstab(index,columns,normalize)
Index: 行索引
Columns: 列索引
Normalize: 数据对数据进行标准化,index表示行,column表示列
在这里插入图片描述

发布了86 篇原创文章 · 获赞 23 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_32392597/article/details/104601848