数据采集(旅游蚂蜂窝) - 代码天地

数据采集(旅游蚂蜂窝)

其他 2020-06-19 11:54:39 阅读次数: 0

http://www.mafengwo.cn/

问题

大家都知道,数据采集需要先去了解数据的特征.数据采集一般都是先有列表,然后再有一个或者多个detail.
列表中有一个id.detail中有子id.
比如列表url有.
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12711.html
这个是蚂蜂窝数据中的云南省的数据列表.
如果再寻找下面的数据:
云南概况
http://www.mafengwo.cn/baike/12711_3810.html
你会发现云南概况应该是云南id+概况id.这样的组合.
那么如果下一个省是四川
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703.html
如果按照规则来.那么四川概况应该是:
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703_3810.html
可惜的是当我们访问的时候发现404.

解决办法

1.list url
2.detail url上再搜索需要抓取的url.按照xpath或者css的方式筛选都可以
3.再根据得到的url再次请求.
4.当然解决万年的访问请求次数太多的问题,找代理或者降低请求频率

需要旅游的数据,联系QQ:3684170
目前手里已有蚂蜂窝网的全部数据
这里写图片描述

猜你喜欢

转载自blog.csdn.net/harrison2010/article/details/68944705

数据采集(旅游蚂蜂窝)

Python 爬取蚂蜂窝旅游攻略（+Scrapy框架+MySQL）

Banner_仿《蚂蜂窝》首页的Banner

携程旅游数据采集

Webmagic学习（爬取马蜂窝、汽车之家、携程旅游游记数据）

NO.31——Python爬虫分析马蜂窝十一假期城市旅游数据

4G DTU蜂窝无线数据采集质量安全追溯无线通信数据上报

高仿马蜂窝旅游头像泡泡动画

中国旅游研究院&马蜂窝：2018中国省域自由行大数据系列报告之华东地区（附下载）...

移动通信之蜂窝数据网络

Webmagic 爬虫框架爬取马蜂窝、携程旅游、汽车之家游记信息

旅游类产品——“马蜂窝自由行”交互原型模板免费使用

携程旅游网与马蜂窝游客记录爬取

JS逆向---cookie反爬虫系列实战（加速乐-某蜂窝旅游攻略网站）

数据采集

数据的采集

数据采集—数据采集技术

处于在线旅游行业边缘马蜂窝还有没有可能做大做强？

马蜂窝数据仓库架构实践

Kafka 集群在马蜂窝大数据平台的优化与应用

数据采集中的全量采集，增量采集，差异采集

数据采集接口分类：数据采集、数据的采集有哪些?

大数据-----数据采集

旅游

数据采集—业务系统日志数据采集

数据采集—数据库基础及采集

蜂窝网络

python数据采集10-采集JavaScript

python数据采集3-开始采集

大数据采集工具与采集业务划分

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)