Python自动化（八）使用Scrapy shell提取网页信息

其他 2019-04-01 20:12:20 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/gavinsun/article/details/78086407

使用Scrapy shell提取网页信息

使用Scrapy shell提取网页信息

说明

本文假设您已经成功安装Scrapy。

使用scrapy shell获得网页内容

在终端中执行如下命令：
scrapy shell -s USER_AGENT="Mozilla/5.0" "https://www.qiushibaike.com"
如果顺利的话，将看到下图所示的界面：
scrapy shell使用示例

关于request和response

request对象中存放的是向服务器发送的请求信息；
response对象中存放的是从服务器获得的所有响应信息。

关于response.body

response.body是从服务器获得的内容。

提取response.body中指定的数据

这里，我们以提取网页中的主题内容为例，首先我们找到内容对应的xpath路径，如下图：
通过火狐浏览器查看xpath

然后，我们通过response.xpath()方法提取所有内容，如下图：
Scrapy中使用xpath提取网页内容

从图中的结果可以看到，我们提取的内容中包含HTML标签，我们可以通过二次xpath优化一下，去掉多余的HTML标签，如下图：

Scrapy中使用xpath提取网页内容

接下来，我们可以在修改一下，把提取的信息保存到文件中，如下图所示：
使用Scrapy shell提取网页信息

猜你喜欢

转载自blog.csdn.net/gavinsun/article/details/78086407

Python自动化（八）使用Scrapy shell提取网页信息

Python爬虫抓取+分析+提取网页信息

自动向网页Post信息并提取返回的信息

python学习笔记——爬虫中提取网页中的信息

python学习笔记——提取网页信息BeautifulSoup4

Python爬虫从入门到精通（四）提取网页中的信息

Python实现网页自动化-初步使用（一）

使用Python爬虫自动化获取网站信息！

scrapy无法使用xpath解析？特殊网页的信息提取（1） — 百度贴吧

Python网络爬虫与信息提取（9）—— scrapy实战之爬取黑马程序员网页讲师信息

python 使用selenium和webdriver.Chrome 自动化测试和自动化延迟抓取网页数据

Ubuntu爬取网页信息(shell/python爬虫)

Python 实现网页自动化朗读

python自动化打开网页

Python实现自动化网页操作

使用selenium实现网页自动化

使用python uiautomation从钉钉网页版提取公司所有联系人信息

使用webmagic爬取网页信息以及通过selenium进行自动化点赞

python学习笔记——提取网页中的信息正则表达式re

Python网络爬虫与信息提取（5）—— 实战之爬取网页图片并保存

shell自动化

python系列25：使用selenium进行自动化网页操作

信息自动化

Python办公自动化，批量提取Excel数据。

Python办公自动化｜批量提取Excel数据

[Python] [爬虫] 1.批量政府网站的招投标、中标信息爬取和推送的自动化爬虫概要——脱离Scrapy框架

jmeter自动化-json提取器的使用

python+selenium实现网页测试自动化

基于Python+selenium+Chrome的网页自动化教程

Python+Selenium个人网页自动化点赞

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)