版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
最近在Python爬虫的群里面看到有挺多人对于美团网上面的数据非常的感兴趣,而且还某些人给出的价格也是非常的可观,爬取美团的数据然后出价5000????当时就懵逼了,当我爬取所有的数据发现原来5000感觉都少了!
爬虫思路
目前有许多爬虫框架,我粗略的使用了以下思路实现增量爬取。
-
requests(selenium)爬取数据;
-
判断爬取的数据是否数据库中已存在;
-
保存在dataframe对象中;
-
插入到数据库中。
获取到所有的商家的url后,现在就到我们的最后一步了,但是要注意的是不同种类型的数据页面是不同的.比如酒店
所以对于不同种类型,需要写不同的解析函数.最后就是爬取的时候不应该追求快,美团限制很严,最好多线程 几秒请求一次.接下来就慢慢让它跑了
基本环境配置
版本:Python3.6
系统:Windows
模块:csv、 time、requests、 json
部分代码
爬取结果分为四大类:
电影院 8195个
酒店 211129
美食大类 490928
生活大类 432803
对Python感兴趣或者是正在学习的小伙伴,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每天都有大牛定时讲解Python技术,分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地
总共 115万 条数据
看到这么多的数据,我突然感觉5K都少了呀!