浅谈基于Python的Scrapy爬虫入门

（一）内容分析

　　接下来创建一个爬虫项目，以图虫网为例抓取里面的图片。在顶部菜单“发现”“标签”里面是对各种图片的分类，点击一个标签，比如“Python视频课程”，网页的链接为：http://www.codingke.com/Python视频课程/，我们以此作为爬虫入口，分析一下该页面：

　　打开页面后出现一个个的图集，点击图集可全屏浏览图片，向下滚动2页面会出现更多的图集，没有页码翻页的设置。Chrome右键“检查元素”打开开发者工具，检查页面源码，内容部分如下：

　　<divclass="content">

　　<divclass="widget-gallery">

　　<ulclass="pagelist-wrapper">

　　<liclass="gallery-item...

　　可以判断每一个li.gallery-item是一个图集的入口，存放在ul.pagelist-wrapper下，div.widget-gallery是一个容器，如果使用xpath选取应该是：//div[@class=”widget-gallery”]/ul/li，按照一般页面的逻辑，在li.gallery-item下面找到对应的链接地址，再往下深入一层页面抓取图片。

　　但是如果用类似Postman的HTTP调试工具请求该页面，得到的内容是：

　　<divclass="content">

　　<divclass="widget-gallery"></div>

　　</div>

　　也就是并没有实际的图集内容，因此可以断定页面使用了Ajax请求，只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中，通过开发者工具查看XHR请求地址为：

　　http://www.codingke.com/Python视频课程/posts?page=1&count=20&order=weekly&before_timestamp=

　　参数很简单，page是页码，count是每页图集数量，order是排序，before_timestamp为空，图虫因为是推送内容式的网站，因此before_timestamp应该是一个时间值，不同的时间会显示不同的内容，这里我们把它丢弃，不考虑时间直接从最新的页面向前抓取。

　　请求结果为JSON格式内容，降低了抓取难度，结果如下：

　　{

　　"postList":[

　　{

　　"post_id":"15624611",

　　"type":"multi-photo",

　　"url":"http://www.codingke.com/",

　　"site_id":"443122",

　　"author_id":"443122",

　　"published_at":"2017-10-2818:01:03",

　　"excerpt":"10月18日",

　　"favorites":4052,

　　"comments":353,

　　"rewardable":true,

　　"parent_comments":"165",

　　"rewards":"2",

　　"views":52709,

　　"title":"微风不燥秋意正好",

　　"image_count":15,

　　"images":[

　　{

　　"img_id":11585752,

　　"user_id":443122,

　　"title":"",

　　"excerpt":"",

　　"width":5016,

　　"height":3840

　　},

　　{

　　"img_id":11585737,

　　"user_id":443122,

　　"title":"",

　　"excerpt":"",

　　"width":3840,

　　"height":5760

　　},

　　...

　　],

　　"title_image":null,

　　"tags":[

　　{

　　"tag_id":131,

　　"type":"subject",

　　"tag_name":"人像",

　　"event_type":"",

　　"vote":""

　　},

　　{

　　"tag_id":564,

　　"type":"subject",

　　"tag_name":"美女",

　　"event_type":"",

　　"vote":""

　　}

　　],

　　"favorite_list_prefix":[],

　　"reward_list_prefix":[],

　　"comment_list_prefix":[],

　　"cover_image_src":"http://www.codingke.com/Python视频课程/",

　　"is_favorite":false

　　}

　　],

　　"siteList":{...},

　　"following":false,

　　"coverUrl":"http://www.codingke.com/Python视频课程/",

　　"tag_name":"美女",

　　"tag_id":"564",

　　"url":"https://tuchong.com/tags/%E7%BE%8E%E5%A5%B3/",

　　"more":true,

　　"result":"SUCCESS"

　　}

　　根据属性名称很容易知道对应的内容含义，这里我们只需关心postlist这个属性，它对应的一个数组元素便是一个图集，图集元素中有几项属性我们需要用到：

　　url：单个图集浏览的页面地址

　　post_id：图集编号，在网站中应该是唯一的，可以用来判断是否已经抓取过该内容

　　site_id：作者站点编号，构建图片来源链接要用到

　　title：标题

　　excerpt：摘要文字

　　type：图集类型，目前发现两种，一种multi-photo是纯照片，一种text是文字与图片混合的文章式页面，两种内容结构不同，需要不同的抓取方式，本例中只抓取纯照片类型，text类型直接丢弃

　　tags：图集标签，有多个

　　image_count：图片数量

　　images：图片列表，它是一个对象数组，每个对象中包含一个img_id属性需要用到

　　根据图片浏览页面分析，基本上图片的地址都是这种格式：https://photo.tuchong.com/{site_id}/f/{img_id}.jpg，很容易通过上面的信息合成。

　　（二）创建项目

　　进入cmder命令行工具，输入workonscrapy进入之前建立的虚拟环境，此时命令行提示符前会出现(Scrapy)标识，标识处于该虚拟环境中，相关的路径都会添加到PATH环境变量中便于开发及使用。

　　输入scrapystartprojecttuchong创建项目tuchong

　　进入项目主目录，输入scrapygenspiderphototuchong.com创建一个爬虫名称叫photo(不能与项目同名)，爬取tuchong.com域名（这个需要修改，此处先输个大概地址），的一个项目内可以包含多个爬虫

　　经过以上步骤，项目自动建立了一些文件及设置，目录结构如下：

　　(PROJECT)

　　│scrapy.cfg

　　│

　　└─tuchong

　　│items.py

　　│middlewares.py

　　│pipelines.py

　　│settings.py

　　│__init__.py

　　│

　　├─spiders

　　││photo.py

　　││__init__.py

　　││

　　│└─__pycache__

　　│__init__.cpython-36.pyc

　　│

　　└─__pycache__

　　settings.cpython-36.pyc

　　__init__.cpython-36.pyc

　　scrapy.cfg：基础设置

　　items.py：抓取条目的结构定义

　　middlewares.py：中间件定义，此例中无需改动

　　pipelines.py：管道定义，用于抓取数据后的处理

　　settings.py：全局设置

　　spidersphoto.py：爬虫主体，定义如何抓取需要的数据

　　（三）主要代码

　　items.py中创建一个TuchongItem类并定义需要的属性，属性继承自scrapy.Field值可以是字符、数字或者列表或字典等等：

　　importscrapy

　　classTuchongItem(scrapy.Item):

　　post_id=scrapy.Field()

　　site_id=scrapy.Field()

　　title=scrapy.Field()

　　type=scrapy.Field()

　　url=scrapy.Field()

　　image_count=scrapy.Field()

　　images=scrapy.Field()

　　tags=scrapy.Field()

　　excerpt=scrapy.Field()

　　...

　　这些属性的值将在爬虫主体中赋予。

　　spidersphoto.py这个文件是通过命令scrapygenspiderphototuchong.com自动创建的，里面的初始内容如下：

　　importscrapy

　　classPhotoSpider(scrapy.Spider):

　　name='photo'

　　allowed_domains=['tuchong.com']

　　start_urls=['http://tuchong.com/']

　　defparse(self,response):

　　pass

　　爬虫名name，允许的域名allowed_domains（如果链接不属于此域名将丢弃，允许多个），起始地址start_urls将从这里定义的地址抓取（允许多个）

　　函数parse是处理请求内容的默认回调函数，参数response为请求内容，页面内容文本保存在response.body中，我们需要对默认代码稍加修改，让其满足多页面循环发送请求，这需要重载start_requests函数，通过循环语句构建多页的链接请求，修改后代码如下：

　　importscrapy,json

　　from..itemsimportTuchongItem

　　classPhotoSpider(scrapy.Spider):

　　name='photo'

　　#allowed_domains=['tuchong.com']

　　#start_urls=['http://tuchong.com/']

　　defstart_requests(self):

　　url='https://tuchong.com/rest/tags/%s/posts?page=%d&count=20&order=weekly';

　　#抓取10个页面，每页20个图集

　　#指定parse作为回调函数并返回Requests请求对象

　　forpageinrange(1,11):

　　yieldscrapy.Request(url=url%('美女',page),callback=self.parse)

　　#回调函数，处理抓取内容填充TuchongItem属性

　　defparse(self,response):

　　body=json.loads(response.body_as_unicode())

　　items=[]

　　forpostinbody['postList']:

　　item=TuchongItem()

　　item['type']=post['type']

　　item['post_id']=post['post_id']

　　item['site_id']=post['site_id']

　　item['title']=post['title']

　　item['url']=post['url']

　　item['excerpt']=post['excerpt']

　　item['image_count']=int(post['image_count'])

　　item['images']={}

　　#将images处理成{img_id:img_url}对象数组

　　forimginpost.get('images',''):

　　img_id=img['img_id']

　　url='https://photo.tuchong.com/%s/f/%s.jpg'%(item['site_id'],img_id)

　　item['images'][img_id]=url

　　item['tags']=[]

　　#将tags处理成tag_name数组

　　fortaginpost.get('tags',''):

　　item['tags'].append(tag['tag_name'])

　　items.append(item)

　　returnitems

　　经过这些步骤，抓取的数据将被保存在TuchongItem类中，作为结构化的数据便于处理及保存。

　　前面说过，并不是所有抓取的条目都需要，例如本例中我们只需要type=”multi_photo类型的图集，并且图片太少的也不需要，这些抓取条目的筛选操作以及如何保存需要在pipelines.py中处理，该文件中默认已创建类TuchongPipeline并重载了process_item函数，通过修改该函数只返回那些符合条件的item，代码如下：

　　...

　　defprocess_item(self,item,spider):

　　#不符合条件触发scrapy.exceptions.DropItem异常，符合条件的输出地址

　　ifint(item['image_count'])<3:

　　raiseDropItem("美女太少:"+item['url'])

　　elifitem['type']!='multi-photo':

　　raiseDropItem("格式不对:"++item['url'])

　　else:

　　print(item['url'])

　　returnitem

　　...

　　当然如果不用管道直接在parse中处理也是一样的，只不过这样结构更清晰一些，而且还有功能更多的FilePipelines和ImagePipelines可供使用，process_item将在每一个条目抓取后触发，同时还有open_spider及close_spider函数可以重载，用于处理爬虫打开及关闭时的动作。

　　注意：管道需要在项目中注册才能使用，在settings.py中添加：

　　ITEM_PIPELINES={

　　'tuchong.pipelines.TuchongPipeline':300,#管道名称:运行优先级(数字小优先)

　　}

　　另外，大多数网站都有反爬虫的Robots.txt排除协议，设置ROBOTSTXT_OBEY=True可以忽略这些协议，是的，这好像只是个君子协定。如果网站设置了浏览器UserAgent或者IP地址检测来反爬虫，那就需要更高级的Scrapy功能，本文不做讲解。

　　（四）运行

　　返回cmder命令行进入项目目录，输入命令：

　　scrapycrawlphoto

　　终端会输出所有的爬行结果及调试信息，并在最后列出爬虫运行的统计信息，例如：

　　[scrapy.statscollectors]INFO:DumpingScrapystats:

　　{'downloader/request_bytes':491,

　　'downloader/request_count':2,

　　'downloader/request_method_count/GET':2,

　　'downloader/response_bytes':10224,

　　'downloader/response_count':2,

　　'downloader/response_status_count/200':2,

　　'finish_reason':'finished',

　　'finish_time':datetime.datetime(2017,11,27,7,20,24,414201),

　　'item_dropped_count':5,

　　'item_dropped_reasons_count/DropItem':5,

　　'item_scraped_count':15,

　　'log_count/DEBUG':18,

　　'log_count/INFO':8,

　　'log_count/WARNING':5,

　　'response_received_count':2,

　　'scheduler/dequeued':1,

　　'scheduler/dequeued/memory':1,

　　'scheduler/enqueued':1,

　　'scheduler/enqueued/memory':1,

　　'start_time':datetime.datetime(2017,11,27,7,20,23,867300)}

　　主要关注ERROR及WARNING两项，这里的Warning其实是不符合条件而触发的DropItem异常。

　　（五）保存结果

　　大多数情况下都需要对抓取的结果进行保存，默认情况下item.py中定义的属性可以保存到文件中，只需要命令行加参数-o{filename}即可：

　　scrapycrawlphoto-ooutput.json#输出为JSON文件

　　scrapycrawlphoto-ooutput.csv#输出为CSV文件

　　注意：输出至文件中的项目是未经过TuchongPipeline筛选的项目，只要在parse函数中返回的Item都会输出，因此也可以在parse中过滤只返回需要的项目

　　如果需要保存至数据库，则需要添加额外代码处理，比如可以在pipelines.py中process_item后添加:

　　...

　　defprocess_item(self,item,spider):

　　...

　　else:

　　print(item['url'])

　　self.myblog.add_post(item)#myblog是一个数据库类，用于处理数据库操作

　　returnitem

　　...

　　为了在插入数据库操作中排除重复的内容，可以使用item[‘post_id’]进行判断，如果存在则跳过。

浅谈基于Python的Scrapy爬虫入门

猜你喜欢