Краткое введение

XPath является XML Path Language (XML Path Language), который представляет собой XML - документ используется для определения положения части языка.

XPath на основе структуры XML дерева, обеспечивая возможность найти узел в дереве данных. XPath ум изначально предложил , чтобы его как общее назначение, между XPointer и XSL моделями грамматических между ними. Но вскоре XPath можно использовать для разработчиков в качестве небольшого языка запросов .

грамматика

Выбор XPath использует выражения пути для выбора узлов узлов в документе XML. Вдоль пути через узел, или для выбора шага. [1]

Ниже перечислены наиболее полезные выражения пути:

выражение	описание
имя_узла	Выберите все дочерние узлы данного узла.
/	Выберите из корневого узла.
//	Выберите документ соответствует выбранному узлу из текущего узла, независимо от их местоположения.
,	Выберите текущий узел.
..	Выберите родитель текущего узла.
@	Выберите Свойства.

операторы

операторы	описание	примеров	Возвращаемое значение
\|	Расчет двух наборов узлов	// книга \| //CD	Возвращает узел набора имеет все элементы книги и компакт-диска
+	прибавление	6 + 4	10
-	вычитание	6 - 4	2
*	умножение	6 * 4	24
ДИВ	разделение	8 DIV 4	2
знак равно	равных	цена = 9,80	Если цена 9,80, она возвращает истину. Если цена 9,90, возвращается ложь.
знак равно	Не равно	цена! = 9,80	Если цена 9,90, она возвращает истину. Если цена 9,80, возвращается ложь.
<	Менее	цена <9,80	Если цена 9.00, она возвращает истину. Если цена 9,90, возвращается ложь.
<=	Меньше или равно	цена <= 9,80	Если цена 9.00, она возвращает истину. Если цена 9,90, возвращается ложь.
>	Больше	цена> 9,80	Если цена 9,90, она возвращает истину. Если цена 9,80, возвращается ложь.
> =	Больше или равно	цена> = 9,80	Если цена 9,90, она возвращает истину. Если цена 9,70, возвращается ложь.
или же	или	цена = 9,80 или цена = 9,70	Если цена 9,80, Или цена 9,70, она возвращает истину.
а также	и	цена> 9,00 и цена <9,90	Если цена больше, чем 9.00, И цена меньше, чем 9,90, он возвращает истину.
модификация	Рассчитано остаток от деления	5 по модулю 2	1

Общие выражения

- 获取所有节点
    - 获取所有li标签
    - //*  //li
- 获取子节点
    - 我们通过/或//即可查找元素的子节点和子孙节点
    - li节点的所有直接a子节点
    - //li/a
    - 获取ul的所有子孙a节点
    - //ul//a
    
- 获取父节点属性
    - 知道子节点查询父节点
    - //div[@class="filter-wrap"]/../@class'
    - //div[@class="filter-wrap"]/parent::*/@class'
    
- 属性定位
    - 找到当前源码中所有class属性为song的div标签
    - //div[@class="song"]
    
- 层级&索引定位
    - 找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
    - //div[@class="tang"]/ul/li[2]/a
    
- 多属性匹配
    - 从当前源码中找到href属性为空且class属性为song的所有a标签
    - //a[@href="" and @class="song"]
    
- 模糊匹配
    - 找到所有class属性值中包含nb的所有div标签
    - //div[contains(@class,"so")]
    - 找到所有class属性值以zb开头的所有div标签
    - //div[starts-with(@class,"ta")]
    
- 获取文本
    - / 表示获取某个标签下的文本内容
    - // 表示获取某个标签下的文本内容和所有子标签下的文本内容
    - //div[@class="song"]/p[1]/text()
    - //div[@class="tang"]//text()
    
- 获取属性
    - //div[@class="tang"]//li[2]/a/@href

案例演示

环境安装

pip install lxml

解析原理

- 解析原理:
    - 获取页面源码数据
    - 实例化一个etree对象,并将页面源码数据加载到该对象中
    - 调用该对象的xpath方法进行指定标签的定位
    - 注意:xpath函数必须结合着xpath表达式进行标签的定位和内容的捕获

58同城房源信息抓取

import requests
from lxml import etree

url = "https://bj.58.com/shahe/ershoufang/?PGTID=0d30000c-0047-e4b2-f57c-08960a90aab4&ClickID=1"
headres = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}
response = requests.get(url).text

# 实列化一个etree对象,加载页面源码数据
tree = etree.HTML(response)

# etree对象调用xpath函数,结合xpath表达式进行标签定位和内容捕获
li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') # 返回值由很多个li标签组成的列表
for i in li_list:
    tetle = i.xpath("./div[2]/h2/a/text()")[0]   # 局部调用表达式时必须加点
    procr = "".join(i.xpath("./div[3]/p//text()"))  # 将价格拼接
    print(tetle,procr)

Рептилия решить библиотеку Xpath