Python网络爬虫与信息提取学习记录（2）——关于BeautifulSoup库的用法

BeautifulSoup库是解析、遍历、维护“标签树”的功能库。一个功能强大的爬虫库，不用正则就能方便的实现对网页具体信息的抓取。

引用：

import bs4 （注意不是：import BeautifulSoup4）

from bs4 import BeautifulSoup（python是大小写敏感的语言，注意B和H的大写）

BeautifulSoup类的基本元素：

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>表明开头和结尾，soup.<tag>返回第一个Tag内容
Name	标签的名字，<p>...</p>的名字是‘p’，格式：<tag>.name
Attribute	标签的属性，以字典形式组织，格式：<tag>.attrs
NavigableString	标签内非属性的字符串，在<>...</>之间的字符串，格式<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

基于bs4库的HTML内容的遍历方法：

1.标签树的下行遍历

属性	说明
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

2.标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

3.标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

'''
标签树的遍历
'''
#标签树的下行遍历
  #遍历儿子节点：
for child in soup.body.children:
    print(child)
  #遍历子孙节点：
for child in soup.body.descendants:
    print(child)
#标签树的上行遍历
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)
#标签树的平行遍历
  #遍历后续节点：
for sibling in soup.a.next_sibling:
    print(sibling)
  #遍历前续节点：
for sibling in soup.a.previous_sibling:
    print(sibling)

（未完）

Python网络爬虫与信息提取学习记录（2）——关于BeautifulSoup库的用法

引用：

BeautifulSoup类的基本元素：

基于bs4库的HTML内容的遍历方法：

1.标签树的下行遍历

2.标签树的上行遍历

3.标签树的平行遍历

猜你喜欢