7.零基础系统学习Python爬虫之HTML详解

其他 2020-02-26 20:54:46 阅读次数: 0

在这里插入图片描述

HTML详解

HTML标签

HTML标签

HTML基本格式：
在这里插入图片描述
遍历方法

下行遍历

属性	说明
.contents	将该标签所有的儿子节点存入列表
.children	子节点的迭代类型，和contents类似，用于遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有的子孙跌点，用于循环遍历

import requests
from bs4 import BeautifulSoup

r=requests.get('http://baidu.com')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

print(soup.contents)# 获取整个标签树的儿子节点
print(soup.body.content)#返回标签树的body标签下的节点

print(soup.head)#返回head标签
print(len(soup.body.content))#输出body标签儿子节点的个数

print(soup.body.content[1])#获取body下第一个子标签


soup=BeautifulSoup(demo,'html.parser')
for child in soup.body.children:#遍历儿子节点
    print(child)
    
for child in soup.body.descendants:#遍历子孙节点
    print(child)

上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点的先辈标签的迭代类型，用于循环遍历先辈节点

import requests
from bs4 import BeautifulSoup

r=requests.get('http://baidu.com')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

for parent in soup.a.parents:#遍历先辈的信息
    if parent is None:
        print(parent)
    else:
        print(parent.name)

平行遍历

属性	说明
.next_sibling	返回HTML文本顺序的下一个平行标签
.previous_sibling	返回HTML文本顺序的上一个平行标签
.next_siblings	迭代类型，返回HTML文本顺序后续所有的平行标签
.pervious_siblings	迭代类型，返回HTML文本顺序前面所有的平行标签

有层次感的输出-prettify()

import requests
from bs4 import BeautifulSoup

r=requests.get('http://baidu.com')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())

提示学习来源：北京理工大学慕课

在这里插入图片描述

lb990123

发布了40 篇原创文章 · 获赞 41 · 访问量 5927

私信关注

猜你喜欢

转载自blog.csdn.net/qq_45172832/article/details/104252081

7.零基础系统学习Python爬虫之HTML详解

6.零基础系统学习Python爬虫之BeauifulSoup库详解

8.零基础系统学习Python爬虫之正则表达式

3.零基础系统学习Python爬虫之BeautifulSoup的简单使用

5.零基础系统学习Python爬虫之模拟浏览器登录

4.零基础系统学习Python爬虫之HTTP协议及Requests库

1.零基础系统学习Python爬虫之request库

2.零基础系统学习Python爬虫之爬取网页的通用代码框架

python学习：零基础怎么系统学习大数据?

零基础怎么系统学习大数据?

零基础怎么系统学习大数据？

python零基础系统学习步骤安排，建议收藏！

零基础入门学习Python应该如何系统学习，这才是正确的学习方法

零基础怎样系统的学习Python

零基础学习 Python 之文件

零基础学习 Python 之集合

零基础学习 Python 之元组

零基础学习 Python 之字典

零基础学习 Python 之封装

零基础学习 Python 之继承

零基础学习 Python 之模块

零基础学习 Python 之函数

零基础学Python|Python学习高阶之网络爬虫入门

[7.程序错误]] 零基础学python，简单粗暴

适合2019年学习Web前端零基础系统学习视频

最新2019学习路线，零基础怎么系统学习大数据？

零基础学习python分布爬虫课程

零基础如何快速学习好Python网络爬虫？

python爬虫零基础学习（一） jupyter环境安装

最适合2018年自学的web前端零基础系统学习视频＋资料

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)