《pandas入门》之基本数据结构

前言

pandas有两种数据结构，其中主要得是Series和DateFrame，本文主要讲解和记录这两种数据的结构和操作。

第一种结构：Series

Series是一种类似一维数组的数据结构，它由一组数据和一组相对应的索引组成，Series的创建形式是Series(list,index=)，需要显式的指出index，若不显式指出index ，则自动创建0到N-1的索引。

obj_1 = pd.Series([1,2,3,4])
print obj_1
print type(obj_1)     
print obj_1.values    
print type(obj_1.values )    
print obj_1.index     
#输出：
0    1
1    2
2    3
3    4
dtype: int64
<class 'pandas.core.series.Series'>
[1 2 3 4]
<type 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)


obj_2 = pd.Series([1,2,3,4],index=["a","b","c","d"])
print obj_2
print obj_2.values    #[1 2 3 4]
print obj_2.index     
#Index([u'a', u'b', u'c', u'd'], dtype='object')
#输出：
a    1
b    2
c    3
d    4
dtype: int64

[1 2 3 4]
Index([u'a', u'b', u'c', u'd'], dtype='object')

Series还有一些其他的数据特性：

# Series 索引是不可修改对象
obj_22 = pd.Series([1,2,3,4],index=["a","b","c","d"])
obj_22.index[1] = "e" 报错
只能重新给一个新的index的序列。
obj_22.index = ['e','f','g','h']
print obj_22.index
#输出：
Index([u'e', u'f', u'g', u'h'], dtype='object')


# Series对象还有name属性，相当于是增加列名
obj_22.name = "population"
obj_22.index.name = "state"
print obj_22
#输出：
state
e    1
f    2
g    3
h    4
Name: population, dtype: int64

# 索引操作符合numpy数组的运算
print obj_2["a"]
print obj_2 * 2
#输出：
1
a    2
b    4
c    6
d    8
dtype: int64

# 注意以下操作，直接在索引位置筛选值
print obj_2[obj_2>2]
#输出：
c    3
d    4
dtype: int64


# 因为Series 可以看做是一个定长的有序字典，因为它是一个索引值到数据值的映射
print  'a' in obj_2    
print  'e' in obj_2
#输出：
True
False

# 所以可以直接用dict建立Series,若不指定索引，则使用字典的key，
# 若指定则使用指定值,指定中索引重复的输出值，索引没值的则输出NAN

sdate = {"A":1000,"B":2000,"C":3000,"D":4000}
obj_3 = pd.Series(sdate)
print obj_3
#输出：
A    1000
B    2000
C    3000
D    4000

stats = {"a","b","C","D"}
obj_4 = pd.Series(sdate,index=stats)
print obj_4
#输出：
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64


# pandas 中 isnull 和 notnull 函数用来检测缺失值
print obj_4.isnull
print obj_4.notnull
#输出：
<bound method Series.isnull of 
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64>
<bound method Series.notnull of 
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64>


# 推荐用以下的判断方式
print pd.isnull(obj_4)
print pd.notnull(obj_4)
#输出：
a     True
C    False
b     True
D    False
dtype: bool
a    False
C     True
b    False
D     True
dtype: bool

第二中结构 DataFrame

DataFrame是一个表格型的数据结构，它的数据存储在一个或多个的二维模块中，它含有一组有序的列数据，可以理解为列名，每列的数据类型可以不一样，所以，DataFrame有行索引和列索引两种检索方式，这两种操作是平衡的。

# 创建
data = {"name":["zhang","li","wang"],"num":[1,2,3],"value":[1.5,2.0,3.0]}
fram = pd.DataFrame(data)
输出
    name  num  value
0  zhang    1    1.5
1     li    2    2.0
2   wang    3    3.0



# 可以指定列序列 columns可以理解为列名
fram_1 = pd.DataFrame(data=data,columns=["name","value","num"],index=["a","b","c"])
#输出：
    name  value  num
a  zhang    1.5    1
b     li    2.0    2
c   wang    3.0    3


# 当传入的列在数据中找不到，则显示NAN
fram_2 = pd.DataFrame(data=data,columns=["name","value","num","test"],index=["a","b","c"])
#输出：
    name  value  num test
a  zhang    1.5    1  NaN
b     li    2.0    2  NaN
c   wang    3.0    3  NaN

# 可以把列数据(列名)理解为索引,获得一个Series
# 列索引皆可看做是DataFrame的属性输出数据
fram_2.columns   # 输出列数据
#输出：
Index([u'name', u'value', u'num', u'test'], dtype='object')

fram_2["value"]
#输出
a    1.5
b    2.0
c    3.0
Name: value, dtype: float64

fram_2.name
#输出
a    zhang
b       li
c     wang
Name: name, dtype: object


# 可以给某列赋值，当该列不存在的时候增加该列，
fram_2["test"] = 16.5
#输出：
    name  value  num  test
a  zhang    1.5    1  16.5
b     li    2.0    2  16.5
c   wang    3.0    3  16.5

del fram_2["test"]
#输出：
    name  value  num
a  zhang    1.5    1
b     li    2.0    2
c   wang    3.0    3

# 行索引不能直接获取，需要使用索引字段
# loc只能通过索引值获取，而iloc是通过行号来获取，
# ix是将两者结合起来，即通过行号又通过索引值来获取
print fram_2.loc["b"]
print fram_2.iloc[2]
print fram_2.ix["b"]
#输出
name     li
value     2
num       2
Name: b, dtype: object
name     wang
value       3
num         3
Name: c, dtype: object
name     li
value     2
num       2
Name: b, dtype: object


fram_2.index.name = "row"
fram_2.columns.name = "col"
#输出
col   name  value  num
row                   
a    zhang    1.5    1
b       li    2.0    2
c     wang    3.0    3

# 对于嵌套的字典数据类型，外层字典的键是列索引，内层键作为行索引
op = {"A":{"a":100,"b":200},"B":{"a":111,"c":222}}
fram_3 = pd.DataFrame(op)
输出：
       A      B
a  100.0  111.0
b  200.0    NaN
c    NaN  222.0

《pandas入门》之基本数据结构

前言

第一种结构：Series

第二中结构 DataFrame

猜你喜欢