Pandas的计数方法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_44613063/article/details/87927611

value_counts() 是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。

本来是 Series 拥有的方法,统计所有非零元素的个数,默认以降序的方式输出Series,一般在 DataFrame 中使用时,需要指定对哪一列或行使用。


在Series类型中:

只有一条数据,不需要指定列数:

import pandas as pd

df = pd.Series([1, 2, 4, 7, 2, 5, 2, 1],
				index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print(df.value_counts())

得到:
在这里插入图片描述

在DataFrame类型中:

先直接导入一个 DataFrame 对象:

import pandas as pd

df = pd.read_csv('movies.csv', encoding='utf-8')
print(df.head())

看一下里面的内容:
在这里插入图片描述
由第一行的索引来确定计数哪一列

统计统一年份的电影数量:

year = df["年份"].value_counts().head()
print(year)

得到:
在这里插入图片描述
统计每个导演所拍电影的数量:

director = df['导演'].value_counts().head()
print(director)

得到:
在这里插入图片描述


value_counts() 返回的结果是一个 Series 数组,可以跟别的数组进行运算。

value_counts() 函数是针对 Series 的,不是针对 DataFrame 的,所以只能是单列。

猜你喜欢

转载自blog.csdn.net/weixin_44613063/article/details/87927611
今日推荐