【Python】数据提取xpath和lxml模块（豆瓣电影排行榜的爬虫） - 代码天地

【Python】数据提取xpath和lxml模块（豆瓣电影排行榜的爬虫）

其他 2018-07-26 12:10:00 阅读次数: 0

xpath

xpath：一门从html中提取数据的语言

xpath语法

1、选择节点(标签) /html/head/meta ：能够选中html下的head下的所有的meta标签

2、// ：能够从任意节点开始选择 //li：当前页面上所有的li标签 //html/head/link ：head下所有的link标签

3、@符号的用途：

1）、选择具体某个元素//div[@class='feed']/ul/li（选择class=‘feed’）的div下的ul下的li。

2）、a/@href：选择a的href值

4、获取文本：

/a/text()：获取a下的文本

/a//text()：获取a下所有的文本

lxml

安装：pip install lxml

使用：

from lxml import etree

element=etree.HTML("html字符串")

element.xpath("")

from lxml import  etree

import requests

import json

url = "https://movie.douban.com/chart"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36"}

response = requests.get(url,headers=headers)

html_str = response.content.decode()

#print(html_str)

html = etree.HTML(html_str)

ret1 = html.xpath("//div[@class='indent']//table")

for table in ret1:
    item = {}
    item["title"]=table.xpath(".//div[@class='pl2']/a/text()")[0].replace("/","").strip()
    item["href"] = table.xpath(".//div[@class='pl2']/a/@href")[0]
    item["img"] = table.xpath(".//a[@class='nbg']/img/@src")[0]
    item["main actors"]=table.xpath(".//div[@class='pl2']/p[@class='pl']/text()")[0]
    item["rating_nums"]=table.xpath(".//div[@class='pl2']//span[@class='rating_nums']/text()")[0]
    item["people_nums"]=table.xpath(".//div[@class='pl2']//span[@class='pl']/text()")[0]
    with open ("豆瓣电影榜.txt","a",encoding="utf-8") as f:
        f.write(json.dumps(item,ensure_ascii=False,indent=2))

猜你喜欢

转载自blog.csdn.net/csdn___csdn/article/details/81200422

【Python】数据提取xpath和lxml模块（豆瓣电影排行榜的爬虫）

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析

Python爬虫实践 —— 6.豆瓣电影排行榜百top数据爬取

xpath语法和lxml模块（数据提取）----python爬虫学习

python爬虫(电影排行榜)

Python 爬虫，lxml模块，XPath语法提取页面数据

python爬取豆瓣排行榜电影数据(含GUI界面版)

豆瓣电影排行榜爬取

【Python】数据提取xpath和lxml模块（糗事百科的爬虫）

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库

Python爬虫数据存储（TXT文本存储）爬取豆瓣音乐排行榜

Python爬虫 XPath语法和lxml模块

爬取豆瓣电影排行榜前250

爬取豆瓣网电影排行榜

利用BeautifulSoup爬取豆瓣高分电影排行榜

Python进阶实战 1.0 ：爬取豆瓣TOP250电影排行榜

python 获取豆瓣电影排行榜前250并写入excel

基于Python的豆瓣电影排行榜，可视化系统

【scrapy】scrapy爬取豆瓣电影排行榜并写入数据库

使用xpath爬取猫眼电影排行榜

python数据分析之爬虫七：爬取豆瓣书籍排行榜Top250

python爬虫系列（1）：使用python3和正则表达式获取猫眼电影排行榜数据

[Python爬虫] 六、数据提取之XPath与lxml类库

Python爬虫_福布斯排行榜_数据可视化

[python爬虫之路day4]：xpath基本知识&&lxml结合xpath进行数据分析&&爬取豆瓣电影

python爬虫知识----数据提取----Xpath和lxml、BeautifulScoup4、正则（二）

python爬虫大学排行榜

Python3爬虫入门实战系列（二）爬取猫眼电影排行榜

爬虫实践：电影排行榜和图片批量下载（看的大佬的）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)