1、pandas库概述
pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数
2、pandas数据结构
seriees,dataframe
(1)series
Series是一种类似于一维数组的对象,由数据(各种NumPy数据 类型)以及与之相关的数据标签(即索引)组成
可以通过字典构建Series对象,Series对象的索引也是可以修改的
import pandas as pd
s2 = pd.Series([0,1,2,3],index = ['a','b','c','d'])
s2.max()
s2['b'] #通过索引可以取出值,类似字典
pd.Series({
'a':'1'}) #通过索引构建,一列索引,一列数据
(2)DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)
DataFrame既有行索引也有列索引,可以看做由Series组成的字典
3、pandas数据分析
(1)准备数据,直接读取
stuDF = pd.read_csv("data/students.txt") #读取的数据表头默认为第一行数据
#stuDF = pd.read_csv("data/students.txt",names=["id","name","age","gender","clazz"]) #添加表头
stuDF.head(10) #head读取数据,默认前5行
(2)取数据
stuDF["id"] #取id这一列数据
stuDF[2:10:1] #取2-10行,切片
stuDF.rename(columns={
0:"id"},inplace = True) #改列的名字,加参数是直接作用其上面更改
stuDF.loc[0,["id","name"]] #loc取一行数据(可以加哪几列)
stuDF.tail() #取后5行
stuDF.info() #查看列的类型
stuDF.describe() #数值型列直接统计最大值,最小值等
(3)布尔索引:输出age>23的
stuDF["age"]>23 #先取出age列>23
stuDF[stuDF["age"]>23] #作为索引