爬虫——json、jsonpath、xpath模糊查询 - 代码天地

爬虫——json、jsonpath、xpath模糊查询

其他 2018-07-02 22:19:33 阅读次数: 0

发现一个问题，之前爬的内容写入文件的方式错了，应该是“wb"! 啊，居然才发现，太蠢了！

json.dump() : 将python内置类型序列转化为python对象后写入文件

json.load() : 将json形式的字符串元素转化成python类型

import urllib.request
import json
import jsonpath

url = "https://www.lagou.com/lbs/getAllCitySearchLabels.json"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36"}

request = urllib.request.Request(url, headers=headers)
html = urllib.request.urlopen(request).read()

# html.decode("utf-8")
# html = bytes(html,  encoding="utf-8")
# html = html.decode("gbk")
with open("lagou.txt","wb") as f:
    f.write(html)

# 把json形式的字符串转换成python形式的Unicode字符串
unicodestr = json.loads(html)

city_list = jsonpath.jsonpath(unicodestr, "$..name")

for item in city_list:
    print(item)
# dumps()默认中文为ascii编码格式
# dumps直接操作,返回Unicode字符串
array = json.dumps(city_list, ensure_ascii=False)

with open("lagou.json","wb") as f:
    # unicode转化为utf-8
    f.write(array.encode("utf-8"))

xpath模糊查询：

//div[contains(@要查找的标签或者属性名，要匹配的字符串)]

猜你喜欢

转载自www.cnblogs.com/gaoquanquan/p/9255999.html

爬虫——json、jsonpath、xpath模糊查询

XPath、Json、Jsonpath

爬虫-JSON与JsonPath

爬虫三 bs4&xpath&jsonpath

JSONPath与XPath

python--爬虫之JSON于JsonPath

数据之路 - Python爬虫 - Json模块与JsonPath

Python爬虫(十三)_JSON模块与JsonPath

JSONPath库：使用类似Xpath的语法解析JSON数据

模糊查询json数组

JSON与JsonPATH

jsonpath和xpath

Python爬虫开发【第1篇】【Json与JsonPath】

Python爬虫数据抽取(一)：解析库json及jsonpath pickle

网络爬虫之网页数据解析（JSON与JsonPATH）

爬虫-4-数据提取-json，jsonpath，正则

比jsonpath 更方便的json 数据查询JMESPath 使用

使用jsonpath 像xpath解析xml一样解析json

我的第二十六篇博客---json函数、jsonpath、xpath语法

Python进阶篇:4正则表达式/xpath/json模块/jsonpath

Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）

Python爬虫基础（二）：使用xpath与jsonpath解析爬取的数据

JSONPath语法元素,XPath元素

从 jsonpath 和 xpath 到 SPL

python.scrapy爬虫-xpath查询语法

转：HTML解析工具HtmlAgilityPack XPath 模糊查询

JSONPATH处理json

python--json、jsonpath

JSONPath解析json

python 中的 json与 jsonpath

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)