python爬虫学习笔记3：bs4及BeautifulSoup库学习

其他 2018-06-04 15:28:45 阅读次数: 0

Beuatiful Soup

bs类对应一个HTML/xml文档的全部内容
from bs4 import BeautifulSoup
import bs4
soup=BeautifulSoup('<p>data</p>','html.parser')
soup2 = BeautifulSoup(open(1.html),"html.parser")

BS解析器

解析器	使用方法	条件
bs4de的html解析器	BeautifulSoup(mk,’html.parser’)	安装bs4
lxml的html解析器	BeautifulSoup(mk,’lxml’)	pip install lxml
lxml的xml解析器	BeautifulSoup(mk,’xml’)	pip install lxml
html5lib的解析器	BeautifulSoup(mk,’html5lib’)	pip install html5lib

BS的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和开头和结尾`.<tag>`(只列出第一个满足条件的元素)
Name	标签的名字，格式：`<tag>.name`
Attrbutes	标签的属性,格式：`<tag>.attrs`
NavigableString	标签内非属性字符串,`<tag>.string`
Comment	标签内字符串的注释部分,一种特殊的Comment类型

基于bs4库的html内容遍历方法

下行便利

属性	说明
.contents	子节点的列表，将`<tag>`所有的儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有的子孙节点，用于循环遍历

上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点的先辈标签的迭代类型，用于循环遍历先辈节点

平行遍历

平行遍历发生在同一个父节点下

满足平行条件的不仅是标签，还可能有NavigableString类型

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_silings	迭代类型，返回按照html文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照html文本顺序的前续所有平行节点标签

给予bs4库的html格式输出

如何让html内容，更加有好的显示

prettify()

对内容html文本内容进行美化

能为html文本的标签以及内容增加换行符，也可以对每一个标签进行相关的处理。

猜你喜欢

转载自blog.csdn.net/w0ryitang/article/details/80207583

python爬虫学习笔记3：bs4及BeautifulSoup库学习

Python爬虫学习笔记（六）————BeautifulSoup（bs4）解析

python bs4模块 BeautifulSoup 学习笔记

python爬虫二:bs4库中的BeautifulSoup模块

[ Python ] 爬虫类库学习之 bs4

【学习笔记】 bs4库

python学习笔记(bs4)

bs4库学习

python bs4 BeautifulSoup

爬虫学习(二)---bs4库的使用

python 爬虫之beautifulsoup（bs4）使用

python 爬虫：BeautifulSoup(bs4) 找不到对应的元素

python爬虫思路及BeautifulSoup bs4使用

Python爬虫之bs4库

Python爬虫速成------bs4库

Python爬虫速成------bs4库

python爬虫8：bs4库

python爬虫学习（十）bs4解析数据

python库的解析--BeautifulSoup(bs4库)

Python爬虫学习（五）基于bs4库的HTML内容检索

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇八——爬虫解析库 bs4 BeautifulSoup

beautifulsoup爬虫使用-bs4

爬虫系列-beautifulsoup(bs4)

Python bs4 BeautifulSoup库使用记录

Python 爬虫学习04 bs库示例学习(beautifulSoup)

python bs4(beautifulsoup4)

python bs4 BeautifulSoup用法

python bs4库

python爬虫三：bs4库lxml

爬虫学习（十二）——bs4实践案例

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)