python爬虫——XPath解析 - 代码天地

python爬虫——XPath解析

企业开发 2024-11-01 19:02:27 阅读次数: 0

常用函数

import lxml.etree # etree模块可以自动修正HTML文本

html = lxml.etree.HTML(text='') # 对HTML文本进行解析

from lxml.etree import HTMLParser
parser = HTMLParser()
html = lxml.etree.parse(source='path, str', parser=parser) # 读取文本文件进行解析

result = lxml.etree.tostring(element_or_tree=html) # 修正后的HTML代码

result.decode('utf-8') # 将‘byte’类型数据转换为‘str’类型

html.xpath('') # 选取特定节点

XPath语法

XPath运算符：or、and、mod、|、+、-、*、div、 =、!=、<、<=、>、>=

获取属性值：

/@attr：获取attr属性值

/attribute::* ：获取所有属性值

获取节点文本：

/text()：获取当前节点的文本

//text()：获取子孙节点的文本

根据属性选取节点：

/@attr：选择带attr属性的所有节点

/node[@*]：选取带任意属性的node节点

/node[@attr="attr_value"]：选取attr属性值为attr_value的node节点

/node[contains(@attr, "attr_value")]：选取attr属性值包含attr_value的node节点

根据位置选取节点：

/* == /child::* ：选取所有子结点

//* == /descendant::* ：选取所有子孙节点

/following::*：选取之后的所有节点

/following-sibling::*：选取之后的所有兄弟节点

/.. == /parent::* ：选取父节点

/ancestor::* ：选取所有祖先节点

从多个匹配节点选取特定次序的节点：

/node['position, int']：选取匹配的第position个node节点

/node[last()]：选取匹配的最后一个node节点

/node[last()-'num, int']：选取匹配的最后num+1个node节点

/node[position()<'position, int']：选取匹配的位置小于position的node节点

猜你喜欢

转载自blog.csdn.net/guanxxx/article/details/138525191

Python爬虫：xpath解析

python爬虫-xpath解析

python爬虫——XPath解析

python爬虫之xpath解析

Python爬虫 xpath解析基础

python爬虫数据解析xpath

【Python】爬虫-----数据解析之Xpath解析

python 爬虫（xpath解析网页，下载照片）

Python爬虫：数据解析之 xpath

Python爬虫之旅_(数据解析)_Xpath

Python 爬虫数据解析--xpath案例

Python 爬虫 xpath 数据解析基本用法

Python爬虫进行xpath解析实战

Python爬虫实战之xpath解析

【Python爬虫】解析xpath——尚硅谷

Python爬虫学习笔记（四）————XPath解析

Java爬虫--Xpath解析

爬虫解析库xpath

爬虫09——xpath解析

Python爬虫解析库之xpath解析库详解

[ python] 爬虫笔记（五) 数据解析之xpath解析

Python爬虫：chrome网页解析工具-XPath Helper

python爬虫之html解析Beautifulsoup和Xpath

python爬虫系列之 xpath：html解析神器

python爬虫系列四：html解析大法-lxml-xpath

风火编程--python爬虫几个xpath解析方法

python爬虫解析必备技能 xpath用法和实战

Python爬虫(四) | 解析库--BeautifulSoup、Xpath、pyquery

python爬虫基础04-网页解析库xpath

doraemon的python 爬虫（数据解析——正则、bs4、xpath）

今日推荐

周排行

【C#】常用WPF控件

04#墨者靶场-SQL手工注入漏洞测试(Access数据库)

Servlet-转发和重定向的区别

2.4: 操作mysql中的数据（一）

【LeetCode】108. Convert Sorted Array to Binary Search Tree

什么样的情况标志着网站被黑了？

.NET Core 源码导航（按程序集链接）

离岸公司怎么搭配个体户使用收汇结汇

TypeScript 语言中的函数参数

静态代码块、构造代码块、构造函数

每日归档

更多

2025-03-26(0)

2025-03-25(0)

2025-03-24(0)

2025-03-23(0)

2025-03-22(0)

2025-03-21(0)

2025-03-20(0)

2025-03-19(0)

2025-03-18(0)

2025-03-17(0)