scrapy下载umic图片终结 - 代码天地

scrapy下载umic图片终结

其他 2018-09-01 06:25:58 阅读次数: 0

版权声明：工作和生活的点点滴滴都应该记录下来! https://blog.csdn.net/u011350541/article/details/81037181

1、scrapy下载一个图片集，首页显示一共有10个子页面
如：

http://www.umei.cc/p/gaoqing/rihan/93106.htm

最后下载完时，发现文件夹只有5张图片。

后面一路debug发现这10个页面里，包含有重复的图片路径，scrapy会自动去重，所以实际只会下载5张

如果不想去重，可以设置不过滤重复链接，如下

    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            self.insert_img(item)
            yield Request(image_url,dont_filter=True)

2、想获取图片路径时，每一个图片的地址都必须有一次request请求，而scrpay是异步下载，因此无法将所有的图片路径一次收集完再执行下载item。

最后的解决办法是：每请求一次页面就下载一次，根据请求页面的路径生成文件夹，将同一图集的图片放在同一文件夹下。
重写了scrapy 图片管道默认的图片路径生成方法

    def file_path(self, request, response=None, info=None):
        url = request.url
        postfix = url.split('/')[-1].split('.')[-1]
        item = request.meta['item']
        imageName = item['url'].split('/')[-1][0:-4].split('_')[-1]
        category = item['url'].split('/')[-2]
        folder = item['name']
        return '%s/%s/%s.%s' % (category,folder,imageName,postfix)

代码地址：
https://github.com/libp/SpiderScrapyArticle/tree/master/z2

猜你喜欢

转载自blog.csdn.net/u011350541/article/details/81037181

scrapy下载umic图片终结

scrapy 下载图片

Scrapy ImagesPipeline下载图片

scrapy----下载(分类)图片

python-scrapy 下载图片

利用Python的scrapy下载图片

scrapy 下载图片 from cuiqingcai

scrapy 下载图片和文件

使用Scrapy下载GIF图片

scrapy 图片下载设置

使用scrapy图片管道下载图片

Scrapy框架下载图片(站酷网下载图片)

Scrapy学习-5-下载图片实例

scrapy爬虫之pipelines图片下载

scrapy下载图片 ImagesPipeline管道文件介绍

scrapy使用自带类 ImagesPipeline下载图片

使用scrapy爬虫框架批量下载图片

利用scrapy下载图片保存到本地

scrapy操作mysql/批量下载图片

python scrapy 使用ImagePipeline下载图片

从图片下载中学习scrapy

Scrapy 下载文件和图片

scrapy自定义下载图片名

[Python_scrapy图片爬取下载]

Python中的scrapy下载并保存图片

scrapy 图片下载管道以及文件下载管道

【Scrapy 图片和文件】scrapy自定义图片下载挂件功能板块

【Scrapy 文件和图片】scrapy自定义的图片下载通道基本实例、构成、实例

【Scrapy中的图片和文件】scrapy系统内置的图片下载管道

scrapy save mysql or mongo, 和图片下载保存

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)