（python）正则之re模块

正则表达式是一个特殊的字符序列，它能帮助我们个字符串是否与某种模式匹配。Python从1.5版本起就增加了re模块，它提供了Perl（一种高级编语言程）风格的正则表达式模式。re模块使Python语言拥有全部的正则表达式功能。

1、findall（最为常用）

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有匹配的，则返回空列表。

语法格式为：

pattern：匹配的正则表达式

string：要匹配的字符串

flags：标志位，用于控制正则表达式的匹配方式。

2、serach

在字符串中只匹配第一个与正则表达示相匹配的字符串，如果匹配到，返回一个_sre.SRE_Mactch对象,可以通过group()来获得这个值。如果没有匹配到，就返回None。

3、match

在字符串中的从左边首位开始匹配与正则表达示相匹配的字符串，如果匹配到，返回一个_sre.SRE_Mactch对象,可以通过group()来获得这个值。如果没有匹配到，就返回None。

它相当于：

如果从左首位没有匹配到，就返回None

4、sub（少用）

替换字符串中与正则相匹配的字符串。

repl:是要替换成的字符串。

count:表示要替换的次数。

5、split

就是将字符串与正则表达示相匹配的字符进行切分。

6、compile

compile可以让一个正则表达示重复被使用。

下面是正则表达式的一些模式：

模式	描述
^	匹配字符串的开头。
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'。
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
*	匹配0个或多个的表达式。
+	匹配1个或多个的表达式。
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	匹配n个前面表达式。例如，"o{2}"不能匹配"Bob"中的"o"，但是能匹配"food"中的两个o。
re{ n,}	精确匹配n个前面表达式。例如，"o{2,}"不能匹配"Bob"中的"o"，但能匹配"foooood"中的所有o。"o{1,}"等价于"o+"。"o{0,}"则等价于"o*"。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式。
a\| b	匹配a或b。
(re)	匹配括号内的表达式，也表示一个组。
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组。
(?imx: re)	在括号中使用i, m, 或 x 可选标志。
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功。
(?> re)	匹配的独立模式，省去回溯。
\w	匹配数字字母下划线。
\W	匹配非数字字母下划线。
\s	匹配任意空白字符，等价于 [\t\n\r\f]。
\S	匹配任意非空字符。
\d	匹配任意数字，等价于 [0-9]。
\D	匹配任意非数字。
\A(^)	匹配字符串开始
\Z($)	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束。
\G	匹配最后匹配完成的位置。
\b	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n	匹配一个换行符。
\t	匹配一个制表符
\1...\9	匹配第n个分组的内容。
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

# 重复匹配：
# .   ?   *   +  {m,n}  .*  .*?
# 1、.:代表除了换行符外的任意一个字符
print(re.findall('a.c','abc a1c aAc aaaaaca\nc'))
print(re.findall('a.c','abc a1c aAc aaaaaca\nc',re.DOTALL))

# 2、？：代表左边那一个字符重复0次或1次
print(re.findall('ab?','a ab abb abbb abbbb abbbb'))

# 3、*：代表左边那一个字符出现0次或无穷次
print(re.findall('ab*','a ab abb abbb abbbb abbbb a1bbbbbbb'))

# 4、+ ：代表左边那一个字符出现1次或无穷次
print(re.findall('ab+','a ab abb abbb abbbb abbbb a1bbbbbbb'))

# 5、{m,n}:代表左边那一个字符出现m次到n次
print(re.findall('ab?','a ab abb abbb abbbb abbbb'))
print(re.findall('ab{0,1}','a ab abb abbb abbbb abbbb'))

print(re.findall('ab*','a ab abb abbb abbbb abbbb a1bbbbbbb'))
print(re.findall('ab{0,}','a ab abb abbb abbbb abbbb a1bbbbbbb'))

print(re.findall('ab+','a ab abb abbb abbbb abbbb a1bbbbbbb'))
print(re.findall('ab{1,}','a ab abb abbb abbbb abbbb a1bbbbbbb'))

print(re.findall('ab{1,3}','a ab abb abbb abbbb abbbb a1bbbbbbb'))

# 6、.*：匹配任意长度，任意的字符=====》贪婪匹配
print(re.findall('a.*c','ac a123c aaaac a *123)()c asdfasfdsadf'))
#['ac a123c aaaac a *123)()c']

# 7、.*？：非贪婪匹配
print(re.findall('a.*?c','a123c456c'))
#['a123c']

# ():分组
print(re.findall('(alex)_sb','alex_sb asdfsafdafdaalex_sb'))

print(re.findall(
    'href="(.*?)"',
    '<li><a id="blog_nav_sitehome" class="menu" href="http://www.cnblogs.com/">博客园</a></li>')
)
# 结果为：['http://www.cnblogs.com/']

# []:匹配一个指定范围内的字符（这一个字符来自于括号内定义的）
print(re.findall('a[0-9][0-9]c','a1c a+c a2c a9c a11c a-c acc aAc'))

# 当-需要被当中普通符号匹配时，只能放到[]的最左边或最 右边
print(re.findall('a[-+*]c','a1c a+c a2c a9c a*c a11c a-c acc aAc'))
print(re.findall('a[a-zA-Z]c','a1c a+c a2c a9c a*c a11c a-c acc aAc'))

# []内的^代表取反的意思
print(re.findall('a[^a-zA-Z]c','a c a1c a+c a2c a9c a*c a11c a-c acc aAc'))
print(re.findall('a[^0-9]c','a c a1c a+c a2c a9c a*c a11c a-c acc aAc'))

print(re.findall('([a-z]+)_sb','egon alex_sb123123wxxxxxxxxxxxxx_sb,lxx_sb'))