Python数据爬虫学习笔记(16)XPath表达式速成

表达式元素介绍:

(1)/   用于网页标签层次设定,如 /html/head/titile  代表了html标签内的head标签内的titile标签,如:

(2)// 表示所有该类型标签,如//li 表示网页中所有的li标签。

(3)text() 代表标签内容,如 /html/head/titile/text(),在上例中表示“新浪首页”。

(4) 表示标签的属性,有两种常见用法:

        1)提取标签属性,如 /a/@href ,表示提取a标签中的href属性。

        2)筛选标签属性,如//li[@class="xxx"],表示提取页面所有class属性为xxx的li标签。

猜你喜欢

转载自blog.csdn.net/Smart3S/article/details/82934570