天气爬取的笔记

1、http://www.nmc.cn/f/rest/real/57036?_=1525850063564 #这个是搜索西安, 然后在返回的页面里面找到 天气预报的url 1、1525850063564 是随机数, 不用管。寻找57036

2、搜索 57036 找到包含很多id(57036)这样的网页 http://www.nmc.cn/f/rest/province/ASN 搜索ASN

3、搜索ASN 找到包含很多类似于 ASN的网页 http://www.nmc.cn/f/rest/province 打开这个网页(就能找到很多省份简写, )

4、陕西地区的id 在这里面 http://www.nmc.cn/f/rest/province/ASN, 那么别的省份的id 就在 http://www.nmc.cn/f/rest/province/+ 省份缩写里面(类似于ASN)


5、http://www.nmc.cn/f/rest/province #这是找到的最终的url 这里面藏着每个省的信息 然后反向requests 就能拿到想要拿的信息

6、然后开始请求1.1 http://www.nmc.cn/f/rest/province 用来获得省份缩写 ,放在一个字典里面

1.2 请求 http://www.nmc.cn/f/rest/province/+ 这个字典里面的values(省份缩写), 用来获得每个省份下面城市对应的id ,用字典储存(城市:id)


url_random = str(random.randint(1500000000000, 1599999999999))

1.3 请求 http://www.nmc.cn/f/rest/real/+id+?_= url_randon 这就拿到每一个城市对应天气的url


1.4 循环请求 http://www.nmc.cn/f/rest/real/+id+?_= url_randon 用json.loads把str转成字典模式, 提取天气放到列表,


1.5 进行打印, 储存

http://tianqi.2345.com/t/wea_history/js/201801/60539_201801.js 这个是2018年1月

http://tianqi.2345.com/t/wea_history/js/201803/57045_201803.js 这个是2018年3月

http://tianqi.2345.com/t/wea_history/js/57045_20121.js 这个是2012年1月的

http://tianqi.2345.com/t/wea_history/js/57045_20119.js 这个是2011年9月的


http://tianqi.2345.com/t/wea_history/js/57045_201110.js 2011年10月的数据


http://tianqi.2345.com/t/wea_history/js/57045_20111.js 2011年1月从这里开始

http://tianqi.2345.com/t/wea_history/js/201805/57045_201805.js 2018年5月的数据

猜你喜欢

转载自www.cnblogs.com/yuanjia8888/p/9065765.html