python数据分析系列教程(3) —— Pandas模块1

目录

一.Pandas简介

二.主要数据结构

1.Series

2.DataFrame

三.Series基本操作

一.pandas简介

(1)pandas是基于numpy的一种为了解决数据分析任务而创建的模块,使用pandas可以让数据分析工作更便捷,他与numpy的区别是:numpy是数值计算的扩展包,pandas是专门用来数据处理的。

       pandas主要提出了两个重要的数据结构:Series和DataFrame,并在此基础上提供了大量快速便捷进行数据处理的函数和方法,通过使用这些数据结构可以弥补一些numpy的不足,能更加适合进行数据处理。

(2)使用pandas可以更高效的实现以下功能:

*具备能按轴自动或显式数据对齐功能的数据结构。

*集成和处理时间序列的功能。

*适合对金融数据处理,可以通过对元数据(轴编号)进行数据运算和约简(比如按轴求和)来实现对结构内数据的计算。

*灵活进行数据清洗和残缺数据处理。

*合并和实现常见数据库中的关系型运算。

二.主要数据结构

pandas中主要提出了两个数据结构:Series和DataFrame,这两种数据结构与numpy中array最大的区别是可以像字典那样指定标记,所以更加适合存储和处理表格类型(特征和特征值)的数据。

(1)Series是有一组数据和相应标签组成的数据组合,类似于字典,其组合是索引在前面、值在右边,如图的两种形式。

                                                                        



创建Series的代码为:

from pandas import Series,DataFrame
import pandas as pd
#简单无标记的Series
obj=Series([4,7,-5,3]) #创建一组数据,未指定标记时,默认是序号有小到大排的
print(obj)                    
'''
0    4
1    7
2   -5
3    3
dtype: int64
'''
#有标记的Series
obj=Series(data=[4,2,9,-32],index=['b','a','w','r'])#创建一组数据,并指定标记
print(obj)  
''' 输出:
b     4
a     2
w     9
r   -32
dtype: int64
'''
#使用字典创建Series
sdata={'or':2,'ge':3,'gd':54,'js':65}
obj2=Series(sdata)
print(obj2)                  
'''  输出:
gd    54
ge     3
js    65
or     2
dtype: int64
'''

(2)DataFrame是表格型的二维的数据结构,其内部每列可以使不同的值类型(数值、字符串、布尔型),列之间类型可以不同,但每一列内部需要类型相同,类似下面的结构,圈定的每一列都是不同的数据类型。

                                                         

      与Series相比,DataFrame既有行索引也有列索引,他可以被看为由Series组成的字典(Series是单标识的),其内部是由一个或多个二维块组成的,如图是通过列和横向索引来确定表格中的一个位置(双标识)。

                                            

在创建DataFrame是,可以接受的创建方式为:

         

创建DataFrame代码:

#创建方法一, 直接使用字典的方式创建DataFrame,直接创建,会自动添加索引来有序排序
data={"A":[1,2,3,4],"B":[5,6,7,8],"C":[1,1,1,1]}  
frame=pd.DataFrame(data)
print(df1)
''' 输出
    A   B   C
0   1   5   1
1   2   6   1
2   3   7   1
3   4   8   1
'''

#创建方式二,指定双索引的创建方式
frame1=pd.DataFrame(data,columns=['A','B','C'],index=['one','get','buy','you']) #指定column和index,但是标识要跟数据尺寸匹配
print(frame1)
'''输出
     A  B  C
one  1  5  1
get  2  6  1
buy  3  7  1
you  4  8  1
'''

三.Series基本操作



创建Series的代码为:

猜你喜欢

转载自blog.csdn.net/maqunfi/article/details/79672997