本专栏是以杨秀璋老师爬虫著作《Python网络数据爬取及分析「从入门到精通」》为主线、个人学习理解为主要内容,以学习笔记形式编写的。
本专栏不光是自己的一个学习分享,也希望能给您普及一些关于爬虫的相关知识以及提供一些微不足道的爬虫思路。
专栏地址:Python网络数据爬取及分析「从入门到精通」
更多爬虫实例详见专栏:Python爬虫牛刀小试
前文回顾:
「Python爬虫系列讲解」一、网络数据爬取概述
「Python爬虫系列讲解」二、Python知识初学
「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试
「Python爬虫系列讲解」四、BeautifulSoup 技术
「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息
「Python爬虫系列讲解」六、Python 数据库知识
「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取
「Python爬虫系列讲解」八、Selenium 技术
「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识
「Python爬虫系列讲解」十、基于数据库存储的 Selenium 博客爬虫
「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫
目录

2.2.4 调用 loadPicture(url, path) 函数下载图片
图片作为网站的重要元素之一,在 HTML 中采用 <img> 标签表示,它具有重要的应用价值,可以同于图片分类,图片监测、知识图谱等。前三篇讲述的 Selenium 技术爬取的都是文本信息,本文将讲解利用 Selenium 技术爬取图片的实例,从网站定位分析、代码实现两方面来讲解爬取全景网各个主题图片的过程,最后讲解代码优化方案。
1 图片爬虫框架
图片爬取框架定义如下图所示,由此可知,整个爬虫是采用 Python 环境下的 Selenium 技术实现的,共分为 3 部分:
第一部分,定义主函数循环获取图片的主题名称和图片性详细页面的超链接,调用 Selenium 进行 DOM 树分析,利用 find_elements_by_xpath() 函数定位元素。其中,主题名称用于命名文件夹或图集,图集超链接用于进一步爬取图片。
第二部分,调用 getPic() 自定义函数创建图集文件夹,并且进入图片详情页面分析定位图片的 HTML 源码,再获取每张图片的超链接,通常位于 <img src="url"/> 节点。
第三部分,调用 loadPicture() 自定义函数分别下载每张图片,将其保存至本地。其中,该函数包括两个参数——URL(图片超链接)和 path(图片存储路径)。
事实上,实际应用中大部分图片爬虫都涉及这三个步骤。各种图片爬虫之间是存在区别的,常见的区别如下:
- 为了提高爬虫效率,修改为分布式或多线程爬虫;
- 为了规整图片格式,采用自定义的方式命名图片;
- 为了获取动态加载的图片,采用动态页面分析技术进行爬取。
下面将详细讲解爬取全景网(https://www.quanjing.com/)的具体流程。
2 图片网站分析
本节主要讲解全景网图片爬取过程,首先讲解常见的图片爬取方法,接着详细的逆袭全景网图片爬虫。
2.1 图片爬取方法
常见的图片爬取方法包括两种:urlretrieve() 函数和文件写入操作。
2.1.1 urlretrieve() 函数
urlretrieve() 方法直接将远程数据下载到本地,属于 urllib 模块,函数原型如下:
urllib.urlretrieve(url,filename=None,reporehook=None,data=None)
其中,参数 url 是下载文件的超链接;参数 filename 指定保存到本地的路径(如果未指定该参数,那么 urllib 会生成一个临时文件夹来保存数据);参数 reporthook 是一个回调函数,打枊链接上服务器以及相应的数据块传输完毕时会触发回调,我们可以利用这个回调函数来显示当前的下载进度;参数 data 是指上传到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),其中,filename 表示保存到本地的路径,headers 参数表示服务器的响应头。
下面通过一个例子来演示如何使用该方法。将百度首页的 Logo 保存到本地文件夹中,然后命名为 “baidu.png” 同时显示下载进度,具体代码如下:
from urllib.request import urlretrieve
# 回调函数:a-已下载数据块;b-数据块大小;c-远程文件大小
def cbk(a, b, c):
per = 100.0 * a * b / c
if per > 100:
per = 100
print('%.2f%%' % per)
url = 'https://www.baidu.com/img/flexible/logo/pc/index.png'
urlretrieve(url, "baidu.png", cbk)
2.1.2 文件写入操作
通过文件写入操作来爬取图片。调用 urllib.request.urlopen() 函数打开图片,然后读取文件,写入数据,保存至本地。代码如下:
import urllib.request
# 自定义函数读/写图片,也可以保存任意格式的文件
def saveImg(imageURL, fileName):
u = urllib.request.urlopen(imageURL)
data = u.read()
f = open(fileName, 'wb')
f.write(data)
print('图片保存为:', fileName)
f.close()
url = 'https://www.baidu.com/img/flexible/logo/pc/index.png'
name = 'baidu_file.png'
saveImg(url, name)
2.2 全景网爬取分析
全景网是中国领先的图片库和正版图片素材网站,为个人提供正版的图片素材、图片搜索、高清图片下载,为企业提供正版图片素材和影像传播解决方案。网站首页如下图所示:
2.2.1 分析自己的需求,寻找主题的超链接
在爬取一个网站之前需要先分析自己的需求,这里需要爬取全景网各个主题下的图集,定位到一个包含各主题的页面(https://www.quanjing.com/category/129-1.html),网页返回的搜索结果图下图所示:
例如“科技”、“城市”、“家庭”等主题,单击相印主题可进入相应主题的详情页面。例如 “建筑”,可以看到各种以建筑为主题的图片,如下图所示:
2.2.2 分析全景网首页,获取各图集详情页面的超链接
接下来定位各个图集详情页面的超链接和主题。按下键盘 F12 键,使用 “元素选择器” 查看指定主题的 HTML 源码,比如,定位 “建筑” 主题的源码如下图所示,图集主题位于 <div id="divImgHolder" class="list">...</div> 目录下,在 <ul>...</ul> 节点中采用多个 <li>...</li> 列表节点布局。
利用 friver.find_elements_by_xpath() 函数定位到 id 属性为 “divImgHolder” 的 <div> 布局,再定位 <ul> 下的多个 <li> 节点,即可获取图集主题和超链接的内容,核心代码如下:
# 打开全景网
url = 'https://www.quanjing.com/category/129-1.html'
driver.get(url)
elems = driver.find_elements_by_xpath('//*[@id="divImgHolder"]/ul/li/span[2]/a')
for elem in elems:
name = elem.text
url = elem.get_attribute('href')
print(name, url)
2.2.3 分别到各图集详情页面批量循环定位图片超链接
例如点击 “建筑” 主题详情页面,按下键盘 F12 键,使用 “元素选择器” 查看某一具体图片的 HTML 源码,,如下图所示:
该主题下的图片超链接都是位于 <div id="demo2"> <a> <img> 路径下的,并且具体实在<img>标签下的 src 路径里,因此,使用 find_elements_by_xpath() 函数定位到该路径下,返回多个元素即为图片位置,再循环调用 get_attirbute('src') 函数就可以获取图片源地址,代码如下:
# 打开全景网"建筑"主题
url = 'https://www.quanjing.com/category/1295001.html'
driver.get(url)
elems = driver.find_elements_by_xpath('//*[@id="demo2"]/a/img')
for elem in elems:
url = elem.get_attribute('src')
print(url)
值得注意的是,我们有时候需要通过 class 属性类确定具体路径,在 HTML 中 class 属性用于标明标签的类名,同一类型的标签名可能相同。为了防止出现其他 class 属性相同的 div 布局,可以通过上一个 div 节点定位,至此达到取值唯一的目的。
同时,由于这里分布了多个不同的主题,所以需要为每个主题图集创建一个文件夹,该文件夹下为安排去对的同一主题的数张图片。创建并命名文件夹是通过调用 os.makedirs() 函数来实现的。创建之前应判断文件夹是否存在,若存在则替换,否则创建。
2.2.4 调用 loadPicture(url, path) 函数下载图片
自定义函数 loadPicture(url, pic_path) 包括两个参数——url 和 path,其中,url 表示需要下载图片的超链接,path 表示图片保存的路径。在该函数中,主要调用 urllib 扩展库的 urlretrieve() 函数下载图片,代码如下:
def loadPicture(pic_url, pic_path):
pic_name = pic_url.split('/')[-2] + ".jpg"
print(pic_path + pic_name)
urlretrieve(pic_url, pic_path+pic_name)
由于图片地址都是采用超链接形式,通过斜杠(/)进行分割,所以这里获取其中最后一个参数和倒数第二个参数来命名图片,对应代码为: pic_url.split('/')[-2] + ".jpg"。
至此,全景网各个主体图集的爬虫代码分析完毕。
3 代码实现
爬取全景网整个分析流程对应的完整代码如下:
import os
import shutil
from urllib.request import urlretrieve
from selenium import webdriver
# 打开 Chrome 浏览器,这顶等待加载时间
chromedriver = 'E:/software/chromedriver_win32/chromedriver.exe'
os.environ["webdriver.chrome.driver"] = chromedriver
driver = webdriver.Chrome(chromedriver)
# 打开全景网
url = 'https://www.quanjing.com/category/129-1.html'
driver.get(url)
# 下载图片
def loadPicture(pic_url, pic_path):
pic_name = pic_url.split('/')[-2] + ".jpg"
print(pic_path + pic_name)
urlretrieve(pic_url, pic_path+pic_name)
# 爬取图片
def getPic(name, url):
print(name)
path = "F:\\Pic3\\" +name + "\\"
if os.path.isfile(path): # Delete file
os.remove(path)
elif os.path.isdir(path): # Delete dir
shutil.rmtree(path, True)
os.makedirs(path) # create the file directory
driver.get(url)
elems = driver.find_elements_by_xpath('//*[@id="demo2"]/a/img')
i = 0
for elem in elems:
url = elem.get_attribute('src')
print(url)
loadPicture(url, path)
if i >= 10:
break
i = i + 1
# 主函数,同于获取主题超链接
if __name__ == '__main__':
urls = []
titles = []
elems = driver.find_elements_by_xpath('//*[@id="divImgHolder"]/ul/li/span[2]/a')
for elem in elems:
name = elem.text
url = elem.get_attribute('href')
print(name, url)
titles.append(name)
urls.append(url)
i = 0
while i < len(urls):
getPic(titles[i], urls[i])
i = i + 1
运行结果如下图所示,可以看到爬取到的所有对应的各个主题:
这里对每个主题图集只爬取了 10 张照片,比如打开 “东方” 文件夹,将显示如下图所示的图片,每张图片的命名方式均对应图片 URL 中的命名。
虽然上述代码已经将各个主体的图片都爬取到了本地,但是仍有几个可以优化的地方如下:
- 网站图片涉及翻页技术。
当网站内容过多时就会涉及翻页技术,通常爬虫会分析翻页的超链接,寻找其中的规律并进行循环爬取。 - 提升爬取速度的各种技术。
在爬取过程中,可能会因为图片众多,有翻页可能等,导致爬取图片时间太长,那么就可以采用并行技术来提高爬虫的效率,其中包括多进程和分布式集群技术。爬取图片慢的主要原因是发送给网站的请求和返回的响应阻塞等待,此时 CPU 不会分配资源给其他进程,爬虫处理时间会相应增加;而采用多进程可以高效利用 CPU,采用集群分而治之的爬取办法可以减少网络阻塞。
关于上述这些待优化问题,将在下一讲文章的 Scrapy 技术中得以很好的解决。
4 本文小结
随着数据分析的快速发展,目前已不局限于分析数字、文本等内容了,图像、声音、视频等信息的分析也成为研究的热点,随之而来的问题就是如何得到这些数据。本文利用 Selenium 技术爬取网站图集,其分析和定位方法与爬取文本的方法一样,不同之处在于,当定位得到了图片的 URL 时,还需要利用图片爬取方法来下载每一张图片,常见的爬取方法有 urlretrieve() 函数和文件写入操作。
欢迎留言,一起学习交流~
感谢阅读