# 网络安全法最高可获得刑法 print("正则爬取地址") # 访问网址的库 import urllib.request import re name = 1 for i in range(1,4): html=urllib.request.urlopen("https://www.i4.cn/wper_1_0_0_%s.html"%i) print("========第%s页数据爬取"%i) data=html.read() # print(data) # 分离壁纸 r=r"[a-zA-z]+://[^\s]*.jpg" # 将壁纸的正则表达式做成匹配模型 pat=re.compile(r) # 将页面的所哟数据和匹配模型进行匹配 imgList=re.findall(pat,str(data)) # 删除最后五个不是壁纸的地址 一个简单的数据清洗 del imgList[-5:] # print(imgList) i代表数据,是每一个地址的网址 # 循环访问每一个壁纸的网址 for i in imgList: # print(i) # 单数,高清图 if(name%2): # 检索下载每一个壁纸到img文件夹 urllib.request.urlretrieve(i,"img/%s.jpg"%name,) print("完成第%s几张壁纸下载"%name) else: pass name+=1
python爬虫简单爬取爱思助手壁纸
猜你喜欢
转载自blog.csdn.net/weixin_42835381/article/details/108642804
今日推荐
周排行