xpath的基本使用 - 代码天地

xpath的基本使用

其他 2018-07-29 19:27:01 阅读次数: 0

　　　　　　　　　　　　　　　　　　　　　　　

from lxml import etree

text ="""

这里是通过requests库的get方法或post方法获取的信息

"""

html = etree.HTML(text) #传入验证参数text，实例化出来一个html的对象

result = etree.tostring(html)#把HTML类实例化的对象传入进去，调用tostring（）方法输出修正后的HTML

代码，但是结果是bytes类型。

print（result.decode('utf-8')）#或 str（result，encoding=‘utf-8’）

直接读取文本文件进行解析

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser()) #test.html是html文件，etree.HTMLParser(),解析器

result = etree.tostring(html)

print(result.decode('utf-8'))

具体使用；

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

result = html.xpath('//li') 选取所有的li节点，是一个列表的形式

print(result)

print(result[0]) #获取一个对象

其中/用于获取直接子节点，//用于获取子孙节点。

文本获取

用xpath中的text（）方法获取节点中的文本。

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

result = html.xpath('//li[@class="item-0"]/text()')#这里解释这句匹配是什么意思，选取当前文档所有属性

class的值等于item-0的li标签里面的文本内容

print（result）

'//li[@class="item-0"]/a/text()' a的文本内容

其实@符号也能获取

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

result = html.xpath('//li/a/@href')

print(result)

通过@href即可获取节点的href属性。注意：此处和属性匹配的方法不同，属性匹配是

中括号加属性后和值来限定某个属性，如【@href=‘kink1.html’】,而@href获取节点的某个属性

猜你喜欢

转载自www.cnblogs.com/wuheng-123/p/9386422.html

xpath的基本使用

xpath基本使用

python中xpath的基本使用

python爬虫之xpath的基本使用

解析HTML—— BeautifulSoup和xPath的基本使用

Python Xpath解析数据提取基本使用

python爬虫之xpath的基本使用 python爬虫之xpath的基本使用

XPath的使用（基本的使用方式，心得，持续添加）

python爬虫 xpath入门与lxml库基本使用，我们一同学习xpath

Python之xpath、JsonPath、bs4基本使用

XPath 的使用

Xpath的使用

xpath使用

使用XPath

基本XPath语法

Xpath基本用法

pymongo 和 xpath 基本操作

xpath基本操作用法

XPath基本内容提取

xpath-语法基本-0223

xpath的使用：（1）xpath插件的安装

Python3编写网络爬虫05-基本解析库XPath的使用

HtmlCleaner XPath API使用

Appium中xpath的使用

RFS入门【Xpath使用】

Xpath使用（转载）

xpath介绍及使用（python）

XPath使用总结

爬虫xpath的使用 xml

python-xpath的使用

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)