#CSV和JSON格式的数据在python上的处理
CSV和JSON数据类型都是都是常见的两种在python中的数据分析类型,这里我有两个入门项目详细讲解这两种数据的处理。
处理一个CSV形式的地方的天气的数据,然后创建一个表格;
分析JSON形式的地震数据,然后用plotly绘制一幅散点图
项目一
import csv#csv这个模块是用于分析这种格式分析的模块
from datetime import datetime#处理事件的模块
from matplotlib import pyplot as plt#我们要画折线图,需要用到这个库的画图功能
filename = 'death_valley_2018_simple.csv'#文件的地址可以根据需求设置
with open(filename) as f:#打开文件,把它赋给f
reader = csv.reader(f)#传递给reader
header_row = next(reader)
#读取文件相关的文件头,这里如果用print的话你会看到每行都行都有哪些数据,来分析出我们要的最高温和最低温在哪个位置
# 当分析出来后,我们就可以从文件获取数据了,我们要的数据的在4、5行
dates, highs, lows = [], [], []#创建列表收录数据、最高、最低值
for row in reader:
current_date = datetime.strptime(row[2], '%Y-%m-%d')
try:
high = int(row[4])
low = int(row[5])
except ValueError:
print(f"Missing data for {current_date}")
else:
dates.append(current_date)
highs.append(high)
lows.append(low)
#把数据写入列表中
# 绘制图形
plt.style.use('seaborn')
fig, ax = plt.subplots()
ax.plot(dates, highs, c='red', alpha=0.5)
ax.plot(dates, lows, c='blue', alpha=0.5)
plt.fill_between(dates, highs, lows, facecolor='blue', alpha=0.1)
# 设置一些表头、横轴、纵轴的名称等信息
title = "Daily high and low temperatures - 2018\nDeath Valley, CA"
plt.title(title, fontsize=20)
plt.xlabel('', fontsize=16)
fig.autofmt_xdate()
plt.ylabel("Temperature (F)", fontsize=16)
plt.tick_params(axis='both', which='major', labelsize=16)
plt.show()#显示图像
项目二
import json#这是在处理json数据时要用的模块
import plotly.express as px#这个plotly的高级接口需要用来绘制图像
import pandas as pd#我们这里对图像进行优化会用到这个数据分析工具
filename = 'eq_data_30_day_m1.json'
with open(filename) as f:
all_eq_data = json.load(f)
#把文件的数据写入all_eq_data中
#根据对数据的分析展开,我们会获得一系列的重要的信息,这里我就直接给出了,数据与键‘features'有关,所以把它储存下来
all_eq_dicts = all_eq_data['features']
mags, titles, lons, lats = [], [], [], []#创建空列表
for eq_dict in all_eq_dicts:
mag = eq_dict['properties']['mag']
title = eq_dict['properties']['title']
lon = eq_dict['geometry']['coordinates'][0]
lat = eq_dict['geometry']['coordinates'][1]
mags.append(mag)
titles.append(title)
lons.append(lon)
lats.append(lat)
#提取震级、位置标题、经纬度
data = pd.DataFrame(
data=zip(lons, lats, titles, mags), columns=['经度', '纬度', '位置', '震级']
)
#因为我们这里要使用到pandas数据分析工具,我们这里对数据进行封装
fig = px.scatter(
data,
x='经度',
y='纬度',
range_x=[-200, 200],
range_y=[-90, 90],
#我们假定了经纬度的绘制范围
width=800,
height=800,
title='全球地震散点图',
size='震级',
size_max=10,
color='震级',#这里定制标记颜色,震级可以按照不同颜色显示,数值越大颜色越黄,从蓝到红到黄渐变
hover_name='位置',
)
fig.write_html('global_earthquakes.html')#将视图保存为html文件,可以在浏览器打开
fig.show()#如果用的是jupyter,使用这个可以直接显示散点图