网络爬虫-爬取指定城市空气质量检测数据

爬取指定城市空气质量检测数据

网站链接 → https://www.aqistudy.cn/historydata/

以月数据为例,见下图:
在这里插入图片描述

然后我们通过console调试可以发现 这个网页在items里面已经将数据打包好了,如下图所示
在这里插入图片描述

没毛病,数据全都对得上,接下来的思路就是利用拼接url的方法,使用selenium进入网页,利用selenium的注入js方法,直接让网页返回我们想要的数据源,然后存储下来即可。

result = browser.execute_script("return items") # 直接接受网页返回的json数据

好的 接下来就是喜闻乐见的测试环节了~

在这里插入图片描述

可以发现并没有什么毛病。但是当我们打开存储下来的CSV文件的时候会发现!

在这里插入图片描述

What the fuck? 跟我想象中的有出入啊! 咋回事呢小老弟全是乱码 –
于是面向百度了解了一波
解决方案如下:

1. 先将CSV用txt记事本打开,然后选择ANSI编码方式。另存为,点编码这里,这里的编码有这么几种选择ANSI/Unicode/Unicode big endian/UTF-8
2. 选择ANSI,然后保存,再用Excel打开,就不会有乱码了。

在这里插入图片描述

在这里插入图片描述

OK 大功告成 数据格式也全都正确了 very nice!

github传送门 → Go and have a look

猜你喜欢

转载自blog.csdn.net/qq_39802740/article/details/84101003