《利用python进行数据分析》第6章数据载入、存储及文件格式总结

第6章数据载入、存储及文件格式

文件读取

  • Pd.Read_csv 从文件或URL中读取分离号的数据,默认分隔符是逗号
  • Pd.Read_table 从文件或URL中读取分离号的数据,默认分隔符是制表符 ’\t’
  • Pd.Read_excel 从excel文件中读取表格数据
  • Pd.Read_sql 将SQL查询结果读取为DATAFRAM格式的数据

文件格式

  • 指定分隔符:sep或delimiter… eg:pd.read_csv(‘ex2.csv’,sep=’ ‘) #修改分隔符为空格
  • 指定用作列标签的行:header
    默认是header=0,即将第一行作为列的标签轴,如果 没有列名的话,则header=None
    eg:pd.read_csv(‘ex2.csv’,header=None) #无列名
  • 指定列标签轴:names
    eg : pd.read_csv(‘ex2.csv’,sep=’ ‘,names=[‘a’,’b’,’c’]) #列的标签名指定为a,b,c
  • 指定行标签轴:index_col 将某一列作为行索引的标签轴
    eg : pd.read_csv(‘ex2.csv’,sep=’ ‘,index_col=‘a’) #将a列作为行索引
    index_col =[‘key1’,’key2’] #将形成一个key1,key2的分层索引
  • 跳行读取:skiprow
    eg : pd.read_csv(‘ex2.csv’,skiprows=[0,2] #跳过第1行和第3行读取
  • 处理缺失值:na_values
    eg : pd.read_csv(‘ex2.csv’, na_values=0) 将读取后的数据中的缺失值全部记作 0

文件导出

  • 导出为csv文件:to_csv 默认分隔符是逗号
    eg: data.to_csv(‘examples/out.csv) #将data导出为名为out的csv文件
  • 指定分隔符 sep=
  • 标识缺失值:缺失值在导出时默认为空字符出现,如果想要标记缺失值,可以使用na_rep
    eg: data.to_csv(‘examples/out.csv, na_rep=’null’)
  • 禁止写入行标签和列标签: index=False header=False
    四、 JOSN数据
  • JOSN (JavaScript Object Notation)是Web浏览器和其他应用间通过HTTP请求发送数据的标准格式
  • Python中有json的标准库,可以直接调用 import json
  • 将json字符串转换为python形式:json.load( )
    eg: result= json.load(obj) 将obj中的字符串转换为python形式
  • 将python对象转换为json形式: json.dumps( )
    Eg: asjson= json.dumps(result)
  • 将json数据转换为DataFram或Series: pd.read_json( )
    pd.read_json默认设置是每一个数组是DataFram中的一行

网络抓取

  • Lxml库
  • Beautiful Soup包: 可以对HTML中的数据自动解析为DataFram对象
  • Requests 包:与API的交互
  • List item

猜你喜欢

转载自blog.csdn.net/chen_bai_/article/details/88746834