Re（正则表达式）--python基础

正则表达式：

正则表达式语法
Re库主要功能函数
Re库的Match对象

1）正则表达式语法：

>常用操作符：

操作符	说明	实例
.	表示任何单个字符
[ ]	字符集，对单个字符给出取值范围	[abc] 表示a、b、c；[a-z]表示a到z单个字符
[^ ]	非字符集，对单个字符给排除范围	[^abc] 表示非a、b、c的单个字符
*	前一个字符0次或无限次扩展	abc* 表示ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+ 表示abc、abcc、abccc等
?	前一个字符0次或1次扩展	abc？表示ab、abc
\|	左右表达式任意一个	abc \| def 表示abc、def

操作符	说明	实例
{m}	扩展前一个字符m次	ab{2}c 表示abbc
{m,n}	扩展前一个字符m到n次（含n次）	ab{1,2}c 表示abc、abbc
^	匹配字符串开头	^abc 表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$ 表示abc且在一个字符串的结尾
( )	分组标记，内部只能使用 \| 操作符	（abc）表示abc；（abc \| def）表示abc、def
\d	数字，等价于[0-9]
\w	单词字符，等价于[A-Z a-z 0-9_ ]

>经典正则表达式实例：

表达式	解释
^[A-Za-z ]+$	由26个字母组成的字符串
^[A-Za-z0-9]+$	由26个字母和数字组成的字符串
^-?\d+$	整数形式的字符串
^[0-9][1-9][0-9]$	正整数形式的字符串
[1-9]\d{5}	中国境内邮政编码，6位
[\u4e00-\u9fa5]	匹配中文字符
\d{3}-\d{8]\|\d{4}-\d{7}	国内电话号码，028-23541136

特别地：（匹配IP地址的正则表达式）

\d+.\d+.\d+.\d+或\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}

匹配IP地址字符串形式

2）Re库主要功能函数：

>Re库的使用:

raw string类型表示（原生字符串类型）：r'text'

例如：r'[1-9]\d{5}'

（说明：raw string是不包含对转义符再次转义的字符串）

string类型表示

例如：'[1-9]\\d{5}'

（说明：若包含转义符，则需要对转义符双写）

>Re库主要功能函数：

函数	说明
re.search()	从一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配的结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每一个迭代类型元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

>常用标记：

常用标记	说明
re.I	忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M	正则表达式中^操作符能够将给定字符串的每一行当做匹配开始
re.S	正则表达式中的 . 操作符能够匹配所有字符，默认匹配除换外的所有字符

具体使用：

pattern : 正则表达式的字符串或原生字符串表示
string : 待匹配字符串
flags : 正则表达式使用时的控制标记在

re.search(pattern, string, flags=0)

import re
match = re.search(r'[1-9]\d{5}', ]BIT 100081')
if match:
    print(match.group(0))

#结果：100081

re.match(pattern, string, flags=0)

import re
match = re.match(r'[1-9]\d{5}', ]BIT 100081')
if match:
    match.group(0)

#结果：100081

re.findall(pattern, string, flags=0)

import re
ls = re.findall(r'[1-9]\d{5}', 'BIT100081 TSU100084')

#结果：ls = {'100081', '100084'}

re.split(pattern, string, maxsplit=0, flags=0)

（说明：maxsplit: 最大分割数，剩余部分作为最后一个元素输出）

import re
re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084')
#结果：['BIT', ' TSU', '']
re.split(r'[1-9]\d{5}', 'BIT 100081 TSU100084',maxsp1it=1)
#结果：ls = ['BIT', ' TSU100084']

re.finditer(pattern, string, flags=0)

import re
for m in re.finditer(r'[1-9]\d{5}', 'BIT100081 TSU100084')
    if m:
        print(m.group(0))
#结果：100081 100084

re.sub(pattern, repl, string, count=0, flags=0)

（说明：repl：替换匹配字符的字符串；count：匹配的最大替换次数）

import re
re.sub(r'[1-9]\d{5}', ':zipcode', 'BIT100081 TSU100084')
#结果：'BIT:zipcode TSU:zipcode'

Re库面向对象的使用方法：

pat = re.compile(r'[1-9]\d{5}')

rst = pat.search(BIT 100081")

3）Re库的Match对象：

>Match对象的属性：

属性	说明
.string	待匹配的文本
.re	匹配时使用的patter对象（正则表达式）
.pos	正则表达式搜索文本的开始位置
.endpos	正则表达式搜索文本的结束位置

>Match对象的方法：

.group(0)	获得匹配后的字符串
.start()	匹配字符串在原始字符串的开始位置
.end()	匹配字符串在原始字符串的结束位置
.span()	返回（.start(), .end()）

>Re库的贪婪匹配和最小匹配：（Re库默认采用贪婪匹配，输出最长的子串）

最小匹配操作符

操作符	说明
*？	前一个字符0次或无限次扩展，最下匹配
+？	前一个字符1次或无限次扩展，最小匹配
？？	前一个字符0次或1次扩展，最小匹配
{m，n}？	扩展前一个字符m至n次（含n次），最小匹配

HurryPotter

发布了39 篇原创文章 · 获赞 1 · 访问量 1124

私信关注

Re（正则表达式）--python基础

正则表达式：

猜你喜欢