Python正则表达式-基础

本文转载自昔日暖阳，原文地址：http://www.osheep.cn/4806.html

python使用正则，需要先引入re模块

import re

匹配符

单个字符表达式	含义
[0-9]	0123456789任意之一
[a-z]	小写字母任意之一
[A-Z]	大写字母任意之一
\d	等同于`[0-9]`
\D	等同于`[^0-9]`匹配非数字，即`\d`的取反
\w	等同于`[a-z0-9A-Z_]`匹配大小写字母、数字和下划线
\W	等同于`[^a-z0-9A-Z_]`等同于上一条取反
.	一个任意字符

匹配模式

匹配模式表达式	含义
?	指定字符一次或者不出现
+	至少出现一次
*	出现任意次，包括不出现
^	从字符串开头进行匹配
$	匹配到字符串的结尾
()	分组符、也可用于或匹配

案例一：匹配邮箱

匹配126，163邮箱地址

# 匹配126，163邮箱地址
ret = re.match(r"^[0-9a-zA-Z_]{4,20}@(163|126)\.com$", '[email protected]')
if ret:
    print('符合要求 - ', ret.group(), ret.group(1))
else:
    print('不符合要求！')

案例二：匹配邮箱并进行分组取值

匹配126，163邮箱地址

# 使用()对匹配值进行分组，可以方便的取得匹配值
# 分组1表示@前面的字符串
# 分组2表示163或者126
ret = re.match(r"^([0-9a-zA-Z_]{4,20})@(163|126)\.com$", '[email protected]')
if ret:
    print('符合要求 - ', ret.group(), ret.group(1), ret.group(2))
else:
    print('不符合要求！')

案例三：在正则表达式中使用分组

匹配网页源代码块

# 在正则表达式中使用分组
# 使用\分组数表示需要使用的分组
ret = re.match(r"^<(\w+)>.*</(\1)>$", '<h1>hello</h1>')
if ret:
    print('符合要求 - ', ret.group())
else:
    print('不符合要求！')

使用多个分组

# 在正则表达式中使用分组
# 使用\分组数表示需要使用的分组，这里表示多个分组
ret = re.match(r"^<(\w+)><(\w+)>.*</(\2)></(\1)>$", '<body><h1>hello</h1></body>')
if ret:
    print('符合要求 - ', ret.group())
else:
    print('不符合要求！')

案例四：在正则表达式中对分组进行命名

对分组进行命名语法：标记分组 ?P<name> 引用分组 ?P=name

# 在正则表达式中使用分组
# 使用\分组数表示需要使用的分组，这里表示多个分组
ret = re.match(r"^<(?P<p1>\w+)><(?P<p2>\w+)>.*</(?P=p2)></(?P=p1)>$", '<body><h1>hello</h1></body>')
if ret:
    print('符合要求 - ', ret.group())
else:
    print('不符合要求！')

Python正则表达式-基础

案例一：匹配邮箱

案例二：匹配邮箱并进行分组取值

案例三：在正则表达式中使用分组

案例四：在正则表达式中对分组进行命名

猜你喜欢