lxml和xpath结合使用 - 代码天地

lxml和xpath结合使用

其他 2018-06-18 09:53:11 阅读次数: 2

lxml和xpath结合使用主要有以下5个方面内容：

# 1.获取所有的tr标签
# 2.获取第2个标签
# 3.获取所有class 等于event的tr标签
# 4.获取所有a标签下的href属性
# 5.或许所有的职位信息（纯文本）

实例代码如下：

# -- coding:utf-8 --
from lxml import etree

parser = etree.HTMLParser(encoding="utf-8")
html = etree.parse("baudu.html", parser=parser)

# 1.获取所有的tr标签
# //tr
# xpath返回的是一个列表
def return_trs():
    trs = html.xpath("//tr")
    for tr in trs:
        print tr

# 2.获取第2个标签
def return_tr():
    tr = html.xpath("//tr[2]")[0]
    print type(tr)
    print tr
    print etree.tostring(tr, encoding="utf-8").decode("utf-8")

# 3.获取所有class 等于event的tr标签
def class_tr():
    trs = html.xpath("//tr[@class='event']")
    print trs

# 4.获取所有a标签下的href属性
def a_href():
    aLists = html.xpath("//a/@href")
    for a in aLists:
        print a
        print "D:\\Python2.7\\"+a

# 5.或许所有的职位信息（纯文本）
positions = []
def position_text():
    trs = html.xpath("//tr[position()>1]")
    for tr in trs:
        # 在某个标签下执行xpath函数，获取这个标签下的子孙元素，那么在“//”前面加一个“.”，即“//.”
        herf = tr.xpath(".//a/@href")[0]
        fullurl = "http://"+herf
        title = tr.xpath("./td[1]//text()")
        category = tr.xpath("./td[2]//text()")
        nums = tr.xpath("./td[3]//text()")
        address = tr.xpath("./td[4]//text()")
        pubtime = tr.xpath("./td[5]//text()")

        position = {
            "url": fullurl,
            "title": title,
            "category": category,
            "nums": nums,
            "address": address,
            "pubtime": pubtime
        }
        positions.append(position)

def main():
    position_text()
    print positions
    # a_href()
    # class_tr()
    # return_trs()
    # return_tr()


if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/qq_42281053/article/details/80665242

lxml和xpath结合使用

lxml中的Xpath的使用

Python爬虫从入门到精通基础篇(05)P20-P23lxml和xpath结合使用详解lxml库xpath简介以及工具安装xpath语法详解

python的lxml和xPath用法

xpath和lxml类库

XPath语法和lxml模块

爬虫网页分析——XPath与lxml的使用

Python爬虫 XPath语法和lxml模块

四、Python3 lxml和Xpath

Python爬虫之lxml库和XPath

xpath语法和lxml库的学习

爬虫笔记：xpath和lxml（十二）

Python爬虫教程-22-lxml-etree和xpath配合使用

python爬虫系列(3.4-使用xpath和lxml爬取伯乐在线)

Python3：使用lxml库来解析xml文件和html文件(使用xpath方式解析)

使用 lxml 中的 xpath 高效提取文本与标签属性值

【爬虫】使用xpath与lxml移除特定标签

Python爬虫基础——XPath语法的学习与lxml模块的使用

python 使用xpath/lxml爬取网页表格并存CSV

Python《使用lxml解析xpath--爬取konachan》

python爬虫之Xpath和lxml学习笔记03

python3之lxml、css和xpath

数据解析之XPath语法和lxml模块

xpath语法和lxml模块（数据提取）----python爬虫学习

python爬虫之xpath和lxml解析内容

爬虫（7） lxml和xpath2020-12-28

XPath与lxml类库

lxml的XPath解析

XPATH(lxml)爬虫测试

Xpath语法与lxml库

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)