Python微医挂号网医生数据抓取 - 代码天地

Python微医挂号网医生数据抓取

编程语言 2019-05-02 16:00:55 阅读次数: 0

1. 写在前面

今天要抓取的一个网站叫做微医网站，地址为 https://www.guahao.com ，我们将通过python3爬虫抓取这个网址，然后数据存储到CSV里面，为后面的一些分析类的教程做准备。本篇文章主要使用的库为pyppeteer 和 pyquery

首先找到医生列表页

https://www.guahao.com/expert/all/全国/all/不限/p5

这个页面显示有 75952 条数据，实际测试中，翻页到第38页，数据就加载不出来了，目测后台程序猿没有把数据返回，不过为了学习，我们忍了。

2. 页面URL

https://www.guahao.com/expert/all/全国/all/不限/p1

https://www.guahao.com/expert/all/全国/all/不限/p2

...

https://www.guahao.com/expert/all/全国/all/不限/p38

数据总过38页，量不是很大，咱只需要随便选择一个库抓取就行，这篇博客，我找了一个冷门的库

pyppeteer 在使用过程中，发现资料好少，很尴尬。

最简单的使用方法，在官方文档中也简单的写了一下，如下，可以把一个网页直接保存为一张图片。

我整理了下面的一些参考代码，你可以做一些参考。

3. 爬取页面

运行下面的代码，你就可以看到控制台不断的打印网页的源码，只要获取到源码，就可以进行后面的解析与保存数据了。如果出现控制不输出任何东西的情况，那么请把下面的

await launch(headless=True) 修改为 await launch(headless=False)

4. 解析数据

解析数据采用的是pyquery ，这个库在之前的博客中有过使用，直接应用到案例中即可。最终产生的数据通过pandas保存到CSV文件中。

总结一下，这个库不怎么好用，可能之前没有细细的研究过，感觉一般，你可以在多尝试一下，看一下是否可以把整体的效率提高上去。

数据清单：

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89762085

Python微医挂号网医生数据抓取

Python爬虫入门教程：微医挂号网医生数据抓取

Python爬虫入门教程 24-100 微医挂号网医生数据抓取

Python爬虫入门教程第二十讲：微医挂号网医生数据抓取

Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

【Python爬虫】之抓取“微医”上的医生信息

贵医通预约挂号

微医网爬虫（二） java实现

微医网爬虫（一） java实现

简单爬取微医网

靠挂号起家想上市的微医什么时候才可以盈利？

python网络数据抓取三（斗图网图片抓取）

微信运动数据抓取(Python)

Python爬虫(7):多进程抓取拉钩网十万数据

Python多进程抓取拉钩网十万数据

python实现selenium自动登录微博抓取数据

python 抓取拉勾网攻略

Selenium 抓取东方网数据

python数据抓取

python 抓取alexa数据

python项目：获取微信好友信息（一）抓取微信好友数据

python简单爬虫实例5之抓取猫眼网数据并存放数据库

如果你不会Python多进程！那你会爬虫？扯淡！抓取拉钩网十万数据

Python3网络爬虫：今日头条新闻App的广告数据抓取

Python3网络爬虫：网易新闻App的广告数据抓取

Python3网络爬虫：爱奇艺视频App的广告数据抓取

python爬虫"Hello World"级入门实例（二）,使用json从中国天气网抓取数据

【python学习笔记】36：抓取去哪儿网的旅游产品数据

python简单爬虫实例之猫眼网Top100数据抓取

Python 东方财富网-股市行情数据抓取

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

学习笔记(01):Python入门教程-计算机如何区分数字和字符

命令行提示符_颜色

五步轻松搞定Linux下的文件同步(备份)

Visio 2010，如何打开多个窗口

西安新起点|MBA考研十大热门城市

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【蓝桥杯】ADV-73 数组输出

[DeeplearningAI笔记]卷积神经网络4.11一维和三维卷积

Java 逻辑运算符

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

每日归档

更多

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)