【python爬虫笔记】网络爬虫之实战 - 代码天地

【python爬虫笔记】网络爬虫之实战

其他 2019-01-07 16:14:48 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/baidu_37378518/article/details/82469490

Unit7 re库入门

操作符	说明	实例
.	表示任何单个字符
[ ]	字符集，对单个字符给出取值范围	[abc]表示a、b、c，[a‐z]表示a到z单个字符
[^ ]	非字符集，对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc* 表示 ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+ 表示 abc、abcc、abccc等
?	前一个字符0次或1次扩展	abc? 表示 ab、abc
\|	左右表达式任意一个	abc\|def 表示 abc、def
{m}	扩展前一个字符m次	ab{2}c表示abbc
{m,n}	扩展前一个字符m至n次（含n）	ab{1,2}c表示abc、abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$表示abc且在一个字符串的结尾
()	分组标记，内部只能使用 \| 操作符	(abc)表示abc，(abc\|def)表示abc、def
\d	数字，等价于[0‐9]
\w	单词字符，等价于[A‐Za‐z0‐9_]

经典正则表达式实例

^[A‐Za‐z]+$	由26个字母组成的字符串
^[A‐Za‐z0‐9]+$	由26个字母和数字组成的字符串
^‐?\d+$	整数形式的字符串
^[0‐9] * [ 1‐9 ][ 0‐9] * $	正整数形式的字符串
[1‐9]\d{5}	中国境内邮政编码，6位
[\u4e00‐\u9fa5]	匹配中文字符
\d{3}‐\d{8}\|\d{4}‐\d{7}	国内电话号码，010‐68913536

Re库的基本使用

当正则表达式包含转义字符时，使用raw string

例如： r’[1‐9]\d{5}’、r’\d{3}‐\d{8}|\d{4}‐\d{7}’

Re库主要功能函数

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

re.search(pattern, string, flags=0)

pattern 正则表达式的字符串或原生字符串表示
string 待匹配字符串
flags 正则表达式使用时的控制标记

常用标记	说明
re.l re.IGNORECASE	忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
re.M re.MULTILIN	正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
re.S re.DOTALL	正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

re.sub(pattern, repl, string, count=0, flags=0)

pattern 正则表达式的字符串或原生字符串表示
repl 替换匹配字符串的字符串
string 待匹配字符串
count 匹配的最大替换次数
flags 正则表达式使用时的控制标记

re库的两种用法

函数式用法：一次性操作

rst = re.search(r’[1‐9]\d{5}’, ‘BIT 100081’)

面向对象用法：编译后的多次操作

pat = re.compile(r’[1‐9]\d{5}’)
rst = pat.search(‘BIT 100081’)

Re库的Match对象

Match对象是一次匹配的结果，包含匹配的很多信息

方法	说明
.group(0)	获得匹配后的字符串
.start()	匹配字符串在原始字符串的开始位置
.end()	匹配字符串在原始字符串的结束位置
.span()	返回(.start(), .end())
.string	待匹配的文本
.re	匹配时使用的patter对象（正则表达式）
.pos	正则表达式搜索文本的开始位置
.endpos	正则表达式搜索文本的结束位置

Re库的贪婪匹配和最小匹配

>>> match = re.search(r'PY.*N', 'PYANBNCNDN')
>>> match.group(0)

同时匹配长短不同的多项？

Re库默认采用贪婪匹配，即输出匹配最长的子串

最小匹配操作符

操作符	说明
*?	前一个字符0次或无限次扩展，最小匹配
+?	前一个字符1次或无限次扩展，最小匹配
??	前一个字符0次或1次扩展，最小匹配
{m,n}?	扩展前一个字符m至n次（含n），最小匹配

只要长度输出可能不同的，都可以通过在操作符后增加?变成最小匹配

猜你喜欢

转载自blog.csdn.net/baidu_37378518/article/details/82469490

【python爬虫笔记】网络爬虫之实战

Python网络爬虫与信息提取(三)：网络爬虫之实战

Python 网络爬虫笔记11 -- Scrapy 实战

Python网络爬虫实战

笔记：《Python网络爬虫》

Python网络爬虫实战入门

【python爬虫笔记】网络爬虫之提取

【python爬虫笔记】网络爬虫之规则

Python爬虫笔记3 |对网络爬虫的限制

网易云课堂【Python网络爬虫实战】笔记

Python 网络爬虫笔记5 -- Beautiful Soup库实战

Python 网络爬虫笔记2 -- Requests库实战

Python笔记：网络爬虫实战之豆瓣网

实战Python网络爬虫笔记之一基础知识

【Python爬虫】爬虫实战

《 Python3 网络爬虫开发实战》学习笔记1-爬虫基础

python网络爬虫学习笔记

Python（学习笔记—网络爬虫）

【Python爬虫9】Python网络爬虫实例实战

网络爬虫——爬虫实战（一）

Python网络爬虫实战项目大全！

Python网络爬虫实战(一)快速入门

Python网络爬虫实战(二)数据解析

python实战——网络爬虫之request

python网络爬虫从入门到实战开发

〖Python网络爬虫实战㉚〗- Selenium节点

〖Python网络爬虫实战㉝〗- aiohttp 的基本使用

Python网络爬虫与信息提取笔记03-Requests库网络爬虫实战（5个实例）

Python数据爬虫学习笔记（10）淘宝图片爬虫实战

Python爬虫实战--WeHeartIt爬虫

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)