Python 获取动态加载的页面数据 - 代码天地

Python 获取动态加载的页面数据

企业开发 2022-05-13 17:29:49 阅读次数: 0

这种动态加载的页面，一般数据会在Network的 JS或者 XHR 类目里。所以我们要使用开发者工具辅助。

URL：https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E9%9D%92%E6%98%A5

一：打开开发者工具，看这一页的 XHR里没有任何文件，然后点击“加载更多”按钮，看它给我们返回什么信息。

返回了一个新的文件,右键这个文件，Open in new tab。

这个页面是一个JSON格式的数据，通过查看，发现这个json数据的内容就是刚加载的电影数据

二：再加载几次，再来看看 XHR 加载的这几个页面的 url：

https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E9%9D%92%E6%98%A5&start=20
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E9%9D%92%E6%98%A5&start=40
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E9%9D%92%E6%98%A5&start=60
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E9%9D%92%E6%98%A5&start=80
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E9%9D%92%E6%98%A5&start=100

对比发现只有最后 start= 后面的数字在变化，而且是以20为步长递增的，20正好对应每次加载出来的电影数量。

import requests
import json
import time

for a in range(5):
    url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=青春&start={}'.format(a * 20)
    file = requests.get(url).json()  # 返回的是 json文件所以用 .json()
    time.sleep(2)
#每次加载20个电影信息
    for i in range(20):
        dict = file['data'][i]  # 取出字典中 'data' 下第 [i] 部电影的信息
        urlname = dict['url']
        title = dict['title']
        rate = dict['rate']
        cast = dict['casts']
        print('影名:{}  评分:{}  演员:{}  链接:{}\n'.format(title, rate, '、'.join(cast), urlname))

猜你喜欢

转载自blog.csdn.net/weixin_40586270/article/details/83027867

Python 获取动态加载的页面数据

Python爬虫：动态获取页面

python+selenium 采集动态加载（下拉加载）的页面内容

Python+Selenium爬取动态加载页面（2）

Python+Selenium爬取动态加载页面（1）

python获取cookie，抓取页面数据

Python的动态加载机制

Python 动态加载

Python动态页面爬起

python爬虫爬取简单的动态数据-异步加载问题

教你用Python爬取动态加载的数据

python 从mongodb中获取数据加载到pandas中

基于 Python 的网络爬虫：获取异步加载的数据

Python爬虫之爬取动态页面数据

python实例3.0——动态页面：Ajax数据爬取

Python高级爬虫之动态加载页面的解决方案与爬虫代理

http服务器加载动态页面的python框架（一）

Python爬虫开发（四）：动态加载页面的解决方案与爬虫代理

Python爬虫爬取ajax动态加载页面——证监会法规爬取

python3+selenium获取页面加载的所有静态资源文件链接

python selenium 获取动态网页数据

【python】动态加载文件

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

【Scrapy学习心得】爬虫实战四（动态加载的页面数据获取）

【Python】Python下载动态页面图片

python获取页面文字信息

【爬虫重磅】Python+Scrapy+Selenium爬取京东【动态js页面加载】案例【比splash更加容易操作的动态js加载方法】

Python爬虫动态获取Cookie

ajax动态获取数据加载下拉列表

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)