寒假自学进度13

完成了前4个spark基础实验 通过视频教程 学习了retrying模块的使用 处理cookie请求 xpath等爬虫的学习 

- HTTP:超文本传输协议
- 以明文的形式传输
- 效率更高,但是不安全
- HTTPS:HTTP + SSL(安全套接字层)
- 传输之前数据先加密,之后解密获取内容
- 效率较低,但是安全

- json.loads
- 把json字符串转化为python类型
- `json.loads(json字符串)`

- json.dumps
- 把python类型转化为json字符串
- json.dumps({})
- json.dumps(ret1,ensure_ascii=False,indent=2)
- ensure_ascii :让中文显示成中文
- indent :能够让下一行在上一行的基础上空格

- xpath
- 一门从html中提取数据的语言
- xpath语法
- xpath helper插件:帮助我们从`elements`中定位数据
- 1. 选择节点(标签)
- `/html/head/meta` :能够选中html下的head下的所有的meta标签
- 2. `//` :能够从任意节点开始选择
- `//li` :当前页面上的所有的li标签
- `/html/head//link` :head下的所有的link标签
- 3. `@符号的用途`
- 选择具体某个元素:`//div[@class='feed']/ul/li`
- 选择class='feed'的div下的ul下的li
- `a/@href` :选择a的href的值
- 4. 获取文本:
- `/a/text()` :获取a下的文本
- `/a//text()` :获取a下的所有的文本
- 5. 当前
- `./a` 当前节点下的a标签

猜你喜欢

转载自www.cnblogs.com/zzstdruan1707-4/p/12310177.html