Python的简单爬取html中的数据 - 代码天地

Python的简单爬取html中的数据

其他 2019-04-30 01:14:50 阅读次数: 0

首先要安装好python的环境，然后cmd进入DOS界面
按住两个第三方包
1.求请网页的html数据

pip install reqeusts

Requests库的7个主要使用方法
requests.request() 构造一个请求,支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应HTTP的GET方法
requests.head() 获取HTML网页头信息的方法,对应HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求,对应HTTP的DELETE
2.这个将网页的内容规范呈现

pip install beautifulsoup4

引用

 import requests
 from bs4 import BeautifulSoup

在这里插入图片描述
爬取的网站的源代码
如果有中文 r.encoding=r.apparent_encoding 标签一致( r.encoding=‘utf-8’ )

寻找底下的所有a链接

查找a标签下的 href 的属性

根据正则表达式进行模糊查询

find_all(name,attrs,recursive,string,**kwargs)
1.name:对标签名称的检索的字符串

  soup.find_all('a')
    for tag in soup.find_all('a'):print(tag.name)

2.attrs:是对标签属性值检索的字符串,要求精准检索

    soup.find_all('p','course')
    soup.find_all(id='link1')

模糊检索

soup.find_all(id=re.compile('lin'))

3.recursive:是否对子孙全部检索

soup.find_all('a',recursive=True)

默认为True,显示子标签，False不显示子标签
4.string:<>…</>中字符串区域的检索字符串

soup.find_all(string='Basic"')

结果显示Basic
遍历
上行不用必须在循环里
soup.a.parents

下行
for p in soup.body.contents:print(p) 遍历一层

必须用迭代 in 循环

.children

.descendants  到叶子节点，全部都出来

平行遍历
寻找兄弟节点
previous_sibling .previous_sibling… 可以迭代多个节点，通过 for语句展示加s 左节点
next_sibling next_siblings 多个节点

猜你喜欢

转载自blog.csdn.net/qq_40183281/article/details/89207784

Python的简单爬取html中的数据

简单爬取html页面的表格中的数据

Python 简单爬取网页数据

Jsoup爬取html数据

Python-爬取HTML网页数据

python数据爬取

python爬取数据

[Python]简单的爬取图片

python爬取简单网页

Python超简单的爬取网站中图片

python爬虫爬取简单的动态数据-异步加载问题

使用python的pyquery简单爬取数据demo

Python爬虫实战——爬取新闻数据（简单的深度爬虫）

Python爬取疫情数据并存入mysql中

Python如何爬取数据保存到Excel中？

python 爬取12306数据

Python爬取网站数据

Python爬取HAProxy数据

python爬取json数据

python爬取github数据

python爬取疫情数据

Python 疫情数据爬取

python爬取淘宝数据

Python爬取网站HTML代码

python爬取html中文乱码

python爬取准备一了解HTML

Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢

PYTHON爬取网站上面的数据很简单,但是如何爬取APP上面的数据呢

Python - Python 简单爬取网页内容

简单使用requests_html模块爬取51Job招聘网的招聘数据

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)