一、前言
每次我接触新的爬虫利器,就喜欢先用各种壁纸网站做个尝试,“4k美女”,梅开三度 我又来了。今天尝试一下PyQuery的使用。
二、实现过程
1、了解PyQuery的基本使用
这里我是参考一位博主的文章:传送门
2、对于网页有一定的了解
都梅开三度了,我对这个网站能不了解嘛。网站传送门
第一次接触的小伙伴,可以看一下我之前的一篇分析这个网站的文章,文章传送门
3、运行代码
from pyquery import PyQuery as pq
import requests
url = 'http://pic.netbian.com/4kmeinv/'
html = requests.get(url=url).text
doc_1 = pq(html) # 字符串初始化
data_s = doc_1('.slist .clearfix li a').items() # 使用CSS选择器进行定位,定位节点过多,需要遍历一下
for list_s in data_s:
image_url = 'http://pic.netbian.com/' + list_s.attr.href # 提取a节点中的href属性,并得到一个新的链接
image = requests.get(image_url).text # 访问第二个页面
doc_2 = pq(image) # 字符串初始化
contents = 'http://pic.netbian.com/' + doc_2('#img img').attr.src # 依然是CSS选择器,提取img节点的src属性
print(contents) # 打印链接结果
这里只是提取到了图片最后高清大图的链接,下载的话,参考上面那篇文章。
4、运行结果
补充:本来想给运行结果录一个gif,结果除了第一次运行比较快之外,其它几次速度都比较慢,不知道是不是网速的原因。欢迎大佬在评论区给点建议