Python爬虫——正则表达式的使用（A）

如果说网络爬虫爬取的网页信息是数据大海，正则表达式就是我们进行“大海捞针”的工具。

python中使用正则表达式需要引入re模块
如：
import re #第一步，要引入re模块
a = re.findall(“匹配规则”，“要匹配的字符串”) #第二步，调用模块函数
以列表形式返回匹配到的字符串
如：`

import re   #第一步，引入re模块
a=re.findall("网络爬虫","学习网络爬虫需要用到正则表达式")  #第二步，调用模块函数
print(a)    #以列表形式返回匹配到的字符串
#打印出  ['网络爬虫']

匹配 . 符号后面的任意一个字符

a = re.findall(“x.”,“y”)
x分以下2种情况:
①x为y中任意一个字符，这个字符处于y的中间位置（若这个字符在y中只有一个并且处于y中最后一个字符，打印出来的即为[ ]），则将x和x后面紧跟的一个字符打印出来

import re
a=re.findall("习.","学习网络爬虫，需要学习正则表达式")
print(a)
#打印出['习网', '习正']

②x为y中多个紧连在一起的字符组成的字符串，则将x和x后面紧跟的一个字符打印出来

import re
a=re.findall("学习.","学习网络爬虫，需要学习正则表达式")
print(a)
#打印出['学习网', '学习正']

匹配 * 前一个字符0次或无限次

a = re.findall(“x.”,“y”)

注：（*元字符前面的一个字符可以是0或者多个y中原本的字符）区别于
（+元字符前面的一个字符可以是1或者多个y中原本的字符）

x分以下2种情况:
①x为y中任意一个字符，则将x按照在y中所在位置以元组的形式打印出来，其他位置全为空，但会多出一个空字符 ‘ ’

import re
a=re.findall("学*","学习我需要学习网络爬虫")
print(a)
#打印出['学', '', '', '', '', '学', '', '', '', '', '', '']

②x为y中多个紧连在一起的字符组成的字符串，
（A）*元符号前的字符是y中原本的字符，则将x打印出来，有几个x就打印几个

import re
a=re.findall("网络爬虫*","需要学习网络爬虫，我喜欢学习网络爬虫")
print(a)
#打印出['网络爬虫', '网络爬虫']

（B）*元符号前紧连的一个字符是y中不存在，则会将除去这个字符前的其他字符打印出来，有几个就打印几个[体现了 * 元字符前面的一个字符可以是0个y中原本的字符]

import re
a=re.findall("网络爬虫啊*","需要学习网络爬虫，我喜欢学习网络爬虫")
print(a)
#打印出['网络爬虫', '网络爬虫']

注：+元符号前紧连的一个字符是y中不存在，则打印出[ ] ``
import re
a=re.findall(“网络爬虫啊+”,“需要学习网络爬虫，我喜欢学习网络爬虫”) print(a)
#打印出[ ]
（3）*元符号前紧连的多个字符是y中不存在，则打印出[ ]

import re
a=re.findall("网络爬虫啊啊*","需要学习网络爬虫，我喜欢学习网络爬虫")
print(a)
#打印出[]

匹配前一个字符0次或者1次

a = re.findall(“x.”,“y”)

需要与字符串里完全符合，？元字符前的一个字符可以是0个或者1个y中原本字符，匹配一个字符0次或1次

x分以下2种情况:
①x为y中任意一个字符，则将x按照在y中所在位置以元组的形式打印出来，其他位置全为空，但会多出一个空字符 ‘ ’

import re
a=re.findall("学?","学习我需要学习网络爬虫")
print(a)
#打印出['学', '', '', '', '', '学', '', '', '', '', '', '']

②x为y中多个紧连在一起的字符组成的字符串，
（A）？元符号前的字符是y中原本的字符，则将x打印出来，有几个x就打印几个

import re
a=re.findall("网络爬虫?","需要学习网络爬虫，我喜欢学习网络爬虫")
print(a)
#打印出['网络爬虫', '网络爬虫']

（B）？元符号前紧连的一个字符是y中不存在，则会将除去这个字符前的其他字符打印出来，有几个就打印几个[体现了？元字符前面的一个字符可以是0个y中原本的字符]

import re
a=re.findall("网络爬虫啊?","需要学习网络爬虫，我喜欢学习网络爬虫")
print(a)
#打印出['网络爬虫', '网络爬虫']

import re
a = "我xxIxx喜欢xxlovexx你xxyouxx"
b=re.findall("xx.*xx",a)
print(b)
#打印出['xxIxx喜欢xxlovexx你xxyouxx']

import re
a = "我xxIxx喜欢xxlovexx你xxyouxx"
b=re.findall("xx.*?xx",a)
print(b)
#打印出['xxIxx', 'xxlovexx', 'xxyouxx']

import re
a = "我xxIxx喜欢xxlovexx你xxyouxx"
b=re.findall("xx(.*?)xx",a)
print(b)
#打印出['I', 'love', 'you']

文章总结了爬虫的用的频率较高的正则表达式中的一些基本使用方法。对于网络爬虫来说，重要的是要能从网页中提取信息。

发布了27 篇原创文章 · 获赞 7 · 访问量 2136

私信关注