爬虫入门实例（三） - 代码天地

爬虫入门实例（三）

其他 2019-02-24 12:11:03 阅读次数: 0

import requests
import re
from bs4 import BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
# 借用小嵩老师提供的网址
print(r) #查看response对象的状态码
demo = r.text
print(demo) # 输出文档内容
soup = BeautifulSoup(demo, "html.parser")
for tag in soup.find_all(id = re.compile('link')):
    print(tag)
# 查找标签属性id中含有link字符串的标签，模糊查找
# for tag in soup.find_all(id='link'):
#     print(tag)
# 精确查找，id必须为link，没有多余前缀或后缀
for tag in soup.find_all(re.compile('b')):
    pass
    #print(tag.name)
# 输出以字母b开头的标签,用'^b'来替换，输出结果不变
for tag in soup.find_all(True):
    print(tag.name)
# 输出所有标签，只输出标签名，不输出标签内容；
# 若想输出标签内容，可用前一篇.children、.next_sibling等进行输出
print(soup.find_all(['a','b']))
# 以列表的形式输出a,b标签
print(soup.find_all('a'))
# 可以通过单独输出查看a标签与同时查询a,b标签的区别
# find_all( name , attrs , recursive , string , **kwargs )
# find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
# <>.find_all(name,attrs,recursive,string,##kwargs)
# 返回一个列表类型，存储查找的结果
# name：对标签名称的检索字符串
# attrs:对标签属性值得检索字符串，可标注属性检索，
# 标签name中含有attrs.也可直接对属性操作，精确查找
print(soup.find_all('b', recursive=False))
# recursive:是否对子孙全部检索，默认值时true
print(soup.find_all(string = re.compile("python")))
# string:<>……</>中字符串区域的检索字符串，精确检索

猜你喜欢

转载自blog.csdn.net/dldl1718/article/details/86612452

爬虫入门实例（三）

爬虫入门：urllib爬虫实例

request入门爬虫实例

爬虫入门实例（六）

爬虫入门实例（一）

爬虫入门实例（五）

爬虫入门实例（四）

爬虫入门实例（二）

python 爬虫实例（三）

爬虫入门(三)

python爬虫入门（三）

Java爬虫入门三

python定向爬虫实例（三）

WebMagic爬虫入门教程（三）爬取汽车之家的实例-品牌车系车型结构等

Python爬虫入门实例三之爬取软科中国大学排名

编程小白的自学笔记十一（python爬虫入门三Selenium的使用+实例详解）

scrapy爬虫框架入门实例

scrapy爬虫框架简单入门实例（二）

scrapy爬虫框架简单入门实例（一）

python爬虫之scrapy之入门实例

10个python爬虫入门实例

【源码】10 个 Python 爬虫入门实例！

python爬虫（三）：BeautifulSoup 【6. 实例】

三、入门实例----基于注解

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）

maven druid muysql爬虫入门（三）

爬虫入门之handler与opener(三)

网络爬虫入门(三)-Cookie登录

Python爬虫小白入门（三）BeautifulSoup库

python爬虫入门之handler与opener(三)

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)