爬虫基础知识五 - 代码天地

爬虫基础知识五

其他 2019-08-26 23:54:42 阅读次数: 0

数据提取方法一

利用json

数据交换格式，看起来像python类型（列表，字典）的字符串
使用json之前需要导入 import json
哪里会返回json的数据
- 浏览器切换到手机版
- 抓包app
json.loads
- 把json字符串转换为python类型
- json.loads(json字符串)
json.dumps
- 把python类型转化为json字符串（用于保存数据到文本中）
- json.dumps({})
- json.dumps(ret,ensure_ascii=False,indent=2)
  - ensure_ascii:让中文显示成中文
  - indent:能够让下一级在上一级的基础上空格几个

数据提取方法二

利用xpath

xpath
- 一门从html中提取数据的语言
xpath语法
- xpath helper插件：帮助我们从elments中定位数据
- 1.选择节点（标签）
  - /html/head/meta:能够选中html下的所有的meta标签
- 2.//：能够从任意节点开始选择
  - //li ：当前页面上所有的li标签
  - /html/head//link ：head下的所有的link标签
- 3.@符号的用途
  - 选择具体的某个元素：//div[@class='feed']/ul/li
    - 选择class=‘feed’的div下的ul下的li
  - a/@href：选择a的href的值
- 4.获取文本：
  - /a/text()：获取a下的文本
  - /a//text():获取a下的所有的文本
- 5.点前
  - ./a：当前节点下的a标签

lxml

安装：pip install lxml

使用

from lxml import etree
element=etree.HTML("html字符串")
element.xpath("")

猜你喜欢

转载自www.cnblogs.com/-chenxs/p/11415701.html

爬虫基础知识五

基础知识 - 爬虫

爬虫基础知识

爬虫的基础知识

爬虫_基础知识

python爬虫基础知识

Python爬虫：基础知识

【归纳】爬虫基础知识

爬虫必备基础知识

爬虫基础知识一

爬虫的基础知识（壹）

爬虫基础知识（叁）

爬虫基础知识（肆）

爬虫基础知识（陆）

爬虫基础知识（捌）

爬虫基础知识（伍）

爬虫基础知识（柒）

爬虫基础知识（玖）

爬虫基础知识回顾

爬虫------爬虫基础知识小结

linux 基础知识（五）

Java基础知识（五）

PHP基础知识（五）

Python基础知识（五）

PostgreSQL基础知识（五）

Linux 基础知识(五)

hive基础知识五

五：引用基础知识

DOM基础知识（五）

爬虫基础-http请求的基础知识

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)