Pandas分组统计函数：groupby、pivot_table及crosstab - 代码天地

Pandas分组统计函数：groupby、pivot_table及crosstab

其他 2018-07-10 10:22:20 阅读次数: 0

利用python的pandas库进行数据分组分析十分便捷，其中应用最多的方法包括：groupby、pivot_table及crosstab，以下分别进行介绍。

0、样例数据

df = DataFrame({ 'key1':[ 'a', 'a', 'b', 'b', 'a'], 'key2':[ 'one', 'two', 'one', 'two', 'one'], 'data1':np.random.randn( 5), 'data2':np.random.randn( 5)})
df
#[Out]# data1 data2 key1 key2
#[Out]# 0 0.439801 1.582861 a one
#[Out]# 1 -1.388267 -0.603653 a two
#[Out]# 2 -0.514400 -0.826736 b one
#[Out]# 3 -1.487224 -0.192404 b two
#[Out]# 4 2.169966 0.074715 a one

1、分组groupby

Pandas中最为常用和有效的分组函数。

1）按列分组

注意以下使用groupby()函数生成的group1是一个中间分组变量，为GroupBy类型。

group1 = df.groupby( 'key1')
group1
#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CA5780>

既可依据单个列名’key1’进行为分组，也可依据多个列名['key1','key2']进行分组。

group2 = df.groupby([ 'key1', 'key2'])
group2
#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CB4128>

使用推导式[x for x in group1]可显示分组内容。

[x for x in group1]
#[Out]# [('a', data1 data2 key1 key2
#[Out]# 0 0.439801 1.582861 a one
#[Out]# 1 -1.388267 -0.603653 a two
#[Out]# 4 2.169966 0.074715 a one),
#[Out]# ('b', data1 data2 key1 key2
#[Out]# 2 -0.514400 -0.826736 b one
#[Out]# 3 -1.487224 -0.192404 b two)]

2）按分组统计

在分组group1、group2上应用size()、sum()、count()等统计函数，能分别统计分组数量、不同列的分组和、不同列的分组数量。

group1.size()
#[Out]# key1
#[Out]# a 3
#[Out]# b 2
#[Out]# dtype: int64
group1.sum()
#[Out]# data1 data2
#[Out]# key1
#[Out]# a 1.221499 1.053922
#[Out]# b -2.001624 -1.019140
group2.size()
#[Out]# key1 key2
#[Out]# a one 2
#[Out]# two 1
#[Out]# b one 1
#[Out]# two 1
#[Out]# dtype: int64
group2.count()
#[Out]# data1 data2
#[Out]# key1 key2
#[Out]# a one 2 2
#[Out]# two 1 1
#[Out]# b one 1 1
#[Out]# two 1 1

3）应用agg()

对于分组的某一列或者多个列，应用agg(func)可以对分组后的数据应用func函数。例如：用group1['data1'].agg('mean')对分组后的’data1’列求均值。当然也可以推广到同时作用于多个列和使用多个函数上。

group1[ 'data1'].agg( 'mean')
#[Out]# key1
#[Out]# a 0.407166
#[Out]# b -1.000812
#[Out]# Name: data1, dtype: float64
group1[ 'data1'].agg([ 'mean', 'sum'])
#[Out]# mean sum
#[Out]# key1
#[Out]# a 0.407166 1.221499
#[Out]# b -1.000812 -2.001624
group1[ 'data1', 'data2'].agg([ 'mean', 'sum'])
#[Out]# data1 data2
#[Out]# mean sum mean sum
#[Out]# key1
#[Out]# a 0.407166 1.221499 0.351307 1.053922
#[Out]# b -1.000812 -2.001624 -0.509570 -1.019140

4）应用apply()

apply()不同于agg()的地方在于：前者应用于dataframe的各个列，后者仅作用于指定的列。

df.groupby( 'key1').apply(mean)
#[Out]# data1 data2
#[Out]# key1
#[Out]# a 0.407166 0.351307
#[Out]# b -1.000812 -0.509570
df.groupby([ 'key1', 'key2']).apply(mean)
#[Out]# data1 data2
#[Out]# key1 key2
#[Out]# a one 1.304883 0.828788
#[Out]# two -1.388267 -0.603653
#[Out]# b one -0.514400 -0.826736
#[Out]# two -1.487224 -0.192404

2、透视表pivot_table

可以产生类似于excel数据透视表的结果，相当的直观。

1）分组统计

其中参数index指定“行”键，columns指定“列”键。

df
#[Out]# data1 data2 key1 key2
#[Out]# 0 0.439801 1.582861 a one
#[Out]# 1 -1.388267 -0.603653 a two
#[Out]# 2 -0.514400 -0.826736 b one
#[Out]# 3 -1.487224 -0.192404 b two
#[Out]# 4 2.169966 0.074715 a one
pd.pivot_table(df, index= 'key1', columns= 'key2')
#[Out]# data1 data2
#[Out]# key2 one two one two
#[Out]# key1
#[Out]# a 1.304883 -1.388267 0.828788 -0.603653
#[Out]# b -0.514400 -1.487224 -0.826736 -0.192404
df.pivot_table([ 'data1'], index= 'key1',columns= 'key2')
#[Out]# data1
#[Out]# key2 one two
#[Out]# key1
#[Out]# a 1.304883 -1.388267
#[Out]# b -0.514400 -1.487224

2）分项汇总

如果将参数margins设置为True，则可以得到分项总计数据。

df.pivot_table(index= 'key1',columns= 'key2', margins= True)
#[Out]# data1 data2
#[Out]# key2 one two All one two All
#[Out]# key1
#[Out]# a 1.304883 -1.388267 0.407166 0.828788 -0.603653 0.351307
#[Out]# b -0.514400 -1.487224 -1.000812 -0.826736 -0.192404 -0.509570
#[Out]# All 0.698455 -1.437746 -0.156025 0.276947 -0.398029 0.006956

3、交叉表crosstab

可以按照指定的行和列统计分组频数，用起来非常方便；当然同样的功能也可采用groupby实现。

pd.crosstab(df.key1,df.key2, margins= True)
#[Out]# key2 one two All
#[Out]# key1
#[Out]# a 2 1 3
#[Out]# b 1 1 2
#[Out]# All 3 2 5

很幸运能够有这么多好用的方法，大大简化了数据分组分析的过程。

猜你喜欢

转载自blog.csdn.net/kwame211/article/details/80974257

Pandas分组统计函数：groupby、pivot_table及crosstab

pandas分组统计：groupby，melt，pivot_table，crosstab的用法

pandas pivot pivot_table groupby crosstab用法与区别详解

pandas中的pivot_table和crosstab

pandas之groupby分组与pivot_table透视表

pivot_table() crosstab()

Pandas —— 透视表pivot_table()和交叉表crosstab()

pandas中的groupby、transform以及pivot_table

pandas dataframe pivot_table

stack,unstack,groupby,pivot_table的区别

pandas使用教程：数据透视表函数 pivot_table

透视表pivot_table和交叉表crosstab

pandas的groupby以及pivot_table用法——以计算恩格尔系数为例

pandas pivot_table或者groupby实现sql 中的count distinct 功能

pandas中pivot_table透视表

详解 Pandas 透视表（pivot_table）

Pandas透视表（pivot_table）详解

Pandas透视表（pivot_table）说明

pandas的透视表pivot_table

Pandas 透视表pivot_table详解

Pandas中pivot_table的使用

Pandas reshape相关函数介绍（pivot，pivot_table，stack，unstack，melt）

用groupby 配合unstack,可以实现pivot_table

pandas数据处理实践五（透视表pivot_table、分组和透视表实战Grouper和pivot_table）

利用Pandas中pivot_table函数生成数据透视表

python pandas 模块 pivot_table 函数的使用，比Excel透视更强大

精通Pandas变形操作：pivot_table()、get_dummies()、stack()函数

pandas pivot_table 活学活用实例教程

Pandas数据透视表之pivot_table

51 pandas pivot_table数据透视表（tcy）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)