正则表达式

什么是正则表达式

正则表达式又称为规则表达式 , 许多编程语言都支持用正则表达式进行字符串操作 , python中的 re 模块使python语言拥有全部的正则表达式功能

正则表达式是对字符串操作的一种逻辑公式,就是事先定义好一些特定字符,及这些特定字符的组合,组成一个规则字符串 ,这个规则字符串用来表达对字符串中的一种过滤逻辑,正则表达式是一个特殊的字符组合,用来判断字符串是否与其匹配

正则表达式是一种用来匹配字符串的强有力武器,它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它匹配了

应用场景

爬虫爬取一个网页得到的都是源代码,对于python来说就是一大段字符串,如果想要提取出有用的信息就需要用到正则表达式

判断条件 判断一个手机号或者身份证号等等内容是不是合法的

其他提取日志记录以及其他字符串

python原始字符

正则表达式使用反斜杠字符（'\'）来表示特殊形式或允许使用特殊字符而不调用其特殊意义。这与Python在字符串文字中的相同目的的使用相同。例如，要匹配文字反斜杠，可能必须将'\\\\'作为正则表达式字符串，因为正则表达式必须是\\，每个反斜杠必须在普通的Python字符串文字中表示为\\。

解决方案是使用Python的原始字符串符号进行正则表达式模式，在以'r'为前缀的字符串文字中，反斜杠不以任何特殊的方式处理。所以r'\n'是一个包含“\”和“n”的双字符串，而“\n”是包含换行符的单字符串。

正则表达式的构成

普通字符(字符串和数字,例如'abc123')
元字符(特殊字符,例如:. ^ $ * + ? { } [ ] | ( ) \)

常用元字符

模式	描述
^	匹配字符串的开头。
$	匹配字符串的结尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…]	用来表示一组字符，单独列出：[amg] 匹配 ‘a’，’m’或’g’。
[^…]	不在[]中的字符：[^abc]匹配除了a，b，c之外的字符。
\w	匹配字母数字及下划线。
\W	匹配非字母数字及下划线。
\s	匹配任意空白字符，等价于 [\t\n\r\f]。
\S	匹配任意非空字符。
\d	匹配任意数字，等价于 [0-9]。
\D	匹配任意非数字。
\A	匹配字符串开始。
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束。
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配”never” 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
\B	匹配非单词边界。’er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
\n,\t	\n: 匹配一个换行符。\t 匹配一个制表符。
*	匹配0个或多个的表达式。
+	匹配1个或多个的表达式。
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式。
{n}	精确匹配n个前面表达式。
{n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式。
a\|b	匹配a或者b。
(…)	匹配括号内的表达式，也表示一个组。

正则表达式修饰符 - 可选标志位

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 or(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

修饰符	描述信息
re.A	使\w，\W，\b，\B，\d，\D，\s和\S执行仅与ASCII匹配而不是完全的Unicode匹配。这只对Unicode模式有意义，对于字节模式将被忽略。
re.DEBUG	显示有关编译表达式的调试信息。
re.I	使匹配对大小写不敏感。
re.L	做本地化识别（locale-aware）匹配。
re.M	多行匹配，影响 ^ 和 $。
re.S	使 . 匹配包括换行在内的所有字符。
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式 re模块