处理数据主要使用的是DataFrame格式,偶尔也会有list格式。
首先定位寻找数据:主要为loc,iloc
创建DataFrame:
df = pd.DataFrame([1,2,3,4,5],index = ['a','b','c','d','e'],columns=['aa'])
或
data=pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('ABCD'))
loc
按照行定位
df.loc['a']
按照行列定位
df.loc['a','aa']
重新赋值:
df.loc['a','aa']= 4
某行全部赋值
df.loc['a'] =0
某列全部赋值
df.loc[:,'aa']=0
条件赋值
df.loc[df['aa']>1] = 0
iloc使用
取某一行
df.iloc[0]
取某一列数据
df.iloc[:,[0]]
取指定行列数据
df.iloc[[0],[0]]
获取DataFrame的各种属性
获得dataframe的行列数
df.shape
获得行数
df.shape[0]
获取列数
df.shape[1]
获取DataFrame数据各种信息
df.describe()
排序
True从小到大,False从大到小
data = data.sort_values('A',ascending=False)
最后一行插入数据
data.loc[len(data)] = data_in
重新设定index
df.reset_index(inplace= True)
以日期为index
data.set_index(['date'],inplace=True)