[利用python进行数据分析 书笔记]第6章 数据加载、存储和文件格式

读取文本格式的数据





逐块读取文本文件

pd.read_csv(nrows = ) 只读取几行
pd.read_csv(chunksize = ) 逐块读取文件,根据chunksize对文件进行逐块迭代



将数据写出到文本格式

pd.to_csv
pd.from_csv


手工处理分隔符格式



JSON数据

import json
json.loads() 将json字符串转换成python形式
json.dumps() 将pythin对象转换成json格式


二进制数据格式

使用HDF5格式

HDF5中的HDF指的是层次型数据格式,能存储多个数据集并支持元数据
pd.HDFStore('文件名')


读取Microsoft Excel文件

xls_file  = pd.ExcelFile('文件名') 读取存储EXCEL的表格型数据
table = xls_file.parse('Sheet1') 通过parse读取工作表中数据放到DataFrame中


使用数据库

SQL的关系型数据库(SQL Server/Postgre SQL/MySQL)








猜你喜欢

转载自blog.csdn.net/daisy_fight/article/details/80798701