chrome浏览器安装Xpath Helper插件 - 代码天地

chrome浏览器安装Xpath Helper插件

其他 2018-07-12 18:56:48 阅读次数: 0

最近偷空研究了一下python，准备用python写一个爬虫。

在使用scrapy，爬取网页信息时，我需要去定位节点，所以也就有了下面这篇文章。

例子代码：

 1 import scrapy
 2 from tutorial.items import DemozItem
 3 
 4 class DmozSpider(scrapy.Spider):
 5     name = "dmoz"
 6     allowed_domains = ["dmoz.org"]
 7     start_urls = [
 8         "file:///D:/pyscrapy/tutorial/tutorial/spiders/test.html"
 9     ]
10     def parse(self, response):
11         #将爬取的数据以Item对象的形式返回
12         for sel in response.xpath("//p/a[@name='链接']"):
13             #item = DemozItem()
14             list = sel.xpath('text()').extract()
15             if len(list) != 0:
16                 print(list[0].replace(' ', ''))

从例子代码中可以看到xpath()方法中的参数为xpath路径表达式。我要去写我所需要信息的xpath，才能抓取到我需要的信息，所以书写xpath表达式是必然的。

在探索中我找到了一个可以很方便查找xpath表达式的插件，由于我是chrome浏览器所以安装这个插件网上很多介绍，你可以去这里下载并了解这个插件：在这里这里面讲解很详细包括安装和使用。

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。（W3School 中有一些用法）

获取父节点的使用方式：

获取name为“现病史”结点父节点的父节点（p）：

可以看到表达式锁定的p颜色为标记为了黄色。

//span[1]/a[@name='现病史']/parent::node()[1]/parent::node()

获取子节点(child::node()[1]代表取子节点的第一个，如果不写则是取所有)：

可以看到一共匹配了376个结果，当前是第九个满足匹配的节点。

猜你喜欢

转载自www.cnblogs.com/liudaihuablogs/p/9301059.html

chrome浏览器安装Xpath Helper插件

在Chrome浏览器安装Xpath helper插件

xpath-helper: 谷歌浏览器安装xpath helper 插件

谷歌浏览器安装xpath helper

Xpath工具 Chrome插件 XPath Helper下载安装与使用

Xpath定位——xpath helper插件

xpath-helper 插件下载

Google Chrome下JSONView和Xpath Helper的插件安装

google 浏览器安装xpath插件

Chrome浏览器安装JSONView插件

Chrome浏览器安装Postman插件

chrome谷歌浏览器安装插件

Chrome浏览器安装插件

Chrome 浏览器安装 ChroPath 插件

Chrome浏览器安装插件教程

xpath helper插件：网页爬虫分析工具

谷歌浏览器73以上版本安装xpath-helper插件报错：程序包错误问题解决方案

python开发--谷歌浏览器安装xpath插件

谷歌xpath helper插件安装提示程序包无效

给谷歌浏览器安装xpath-helper不成功

谷歌浏览器安装xpath-helper不成功

chrome浏览器插件

Chrome浏览器安装veu-devtools插件

chrome浏览器中安装TSearch搜索插件

Chrome 谷歌浏览器安装Axure插件

chrome -- 浏览器插件的下载和安装。

Google Chrome 浏览器插件的下载及安装使用

Axure谷歌Chrome浏览器插件安装教程

Chrome浏览器vue-devtools插件安装教程

【技巧】谷歌Chrome浏览器安装vue插件

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)