Python爬取数据：翻页操作 - 代码天地

Python爬取数据：翻页操作

企业开发 2023-04-06 13:32:23 阅读次数: 0

Python爬取视频在上一章已经实现，如果爬取数据的时候发现不止一页数据，而是很多页数据的时候，我们就需要爬虫自行翻页操作继续获取另一页的数据。那么如何实现的翻页操作是本章主要描述内容。
该文章爬取数据例子网址

1、翻页操作的原理

翻页操作基本原理实际就是打开另一页的网址（该文章描述的是换页网址会发生变化的类型，换页时地址没变化的不适用该文章描述方法），知道原理后，我们想翻页操作时，只需要找到翻页后的网络地址并打开即可爬取翻页后的数据内容。

2、如何实现翻页

比如爬取数据是如下图这种翻页模式的

那么我们只需要在打开该网址后，打开开发者工具，搜索关键字 “下一章” ，点击搜索到的信息，会看到有需要的下一章网址（如下图所示）

留意记住红框框柱的内容，这是我们想要的点击下一章后刷新的网络地址，只要获取该网络地址并对该网址进行网络请求即可获取下一章的内容，从而实现自动翻页操作

3、代码实现

import requests
import re

url = 'https://read.qidian.com/chapter/YvJ9Xu5KMv01/uq-shwCz0Woex0RJOkJclQ2/'

headers={
    
    
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}

response = requests.get(url=url, headers=headers)

next_url = re.findall('href="(.*?)" data-eid="qd_R109" >下一章', response.text)[0]
print("自动获取下一章的网址: %s"%("https:" + next_url))

4、结果

执行完上面代码可看到结果:
图4.1
我们将自动获取出来的网络地址复制粘贴到浏览器并打开与未翻页的页面对比观看是否实现了下一章的跳转：

跳转前页面：

图4.3

下一章跳转后页面：
图4.2
通过两个页面对比，可以看出是正确自动捕获到了翻页后的网址，成功实现了爬虫翻页操作。

希望该文章对你有所帮助，作者能力有限，如有不足请多多包涵。

如果你觉得该文章不错请点个免费的赞吧！

猜你喜欢

转载自blog.csdn.net/weixin_44355653/article/details/128019720

Python爬取数据：翻页操作

Python爬虫实战（一）：翻页爬取数据存入SqlServer

Python拉勾网爬虫-翻页爬取

scrapy 爬取数据时翻页专栏

Python-selenium翻页爬取csdn博客保存数据入mysql

python爬虫--如何爬取翻页url不变的网站

利用selenium实现自动翻页爬取某鱼数据

python数据爬取

python爬取数据

python爬取百度图片——翻页式网站爬取

Python爬虫时翻页等操作URL不会改变的解决办法--以爬取携程景点点评信息为例

python 爬取12306数据

Python爬取网站数据

Python爬取HAProxy数据

python爬取json数据

python爬取github数据

python爬取疫情数据

Python 疫情数据爬取

python爬取淘宝数据

瀑布流式网页翻页爬取

Scrapy 爬取内容并且翻页

【python3】爬取百度图片，多线程爬取，自动局部刷新与翻页

python从入门到放弃篇26(lxml.etree库，urllib.request库，构造xpath路径，构造url）实现翻页爬取豆瓣书简介并保存数据

[爬虫]Python+Selenium 爬取京东商城，翻页功能实现

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

python爬虫——爬取马蜂窝景点翻页文字评论

python 翻页式爬取百度图片（两种实现方法）

Python实现【一小时——快速上手爬虫】爬取文字+翻页

Python入门学习记录04--Scrapy爬取豆瓣Top250图书(可翻页)

requests模块爬取数据操作流程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)