# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图工具
data =[]#初始化#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常withopen("/home/aistudio/data/data67990/arxiv-metadata-oai-2019.json",'r')as f:for idx, line inenumerate(f):
d = json.loads(line)
d ={
'abstract': d['abstract'],'categories': d['categories'],'comments': d['comments']}
data.append(d)
data = pd.DataFrame(data)