数据采集(旅游蚂蜂窝)

http://www.mafengwo.cn/

问题

大家都知道,数据采集需要先去了解数据的特征.数据采集一般都是先有列表,然后再有一个或者多个detail.
列表中有一个id.detail中有子id.
比如列表url有.
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12711.html
这个是蚂蜂窝数据中的云南省的数据列表.
如果再寻找下面的数据:
云南概况
http://www.mafengwo.cn/baike/12711_3810.html
你会发现云南概况应该是云南id+概况id.这样的组合.
那么如果下一个省是四川
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703.html
如果按照规则来.那么四川概况应该是:
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703_3810.html
可惜的是当我们访问的时候发现404.

解决办法

1.list url
2.detail url上再搜索需要抓取的url.按照xpath或者css的方式筛选都可以
3.再根据得到的url再次请求.
4.当然解决万年的访问请求次数太多的问题,找代理或者降低请求频率

需要旅游的数据,联系QQ:3684170
目前手里已有蚂蜂窝网的全部数据
这里写图片描述

猜你喜欢

转载自blog.csdn.net/harrison2010/article/details/68944705