笔记——scrapy 抓取图片 - 代码天地

笔记——scrapy 抓取图片

其他 2018-05-13 13:16:30 阅读次数: 1

今天来学习一下使用scrapy对图片的进行抓取

1. 创建项目

scrapy startproject xiaohuascrapy

创建spider文件，取名xiaohua.py

2.定义 Item

import scrapy
from scrapy.item import Item, Field
class XiaohuascrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    file_urls = scrapy.Field()
    files = scrapy.Field()

3.编写spider文件

# -*- coding: utf-8 -*-
import scrapy
from xiaohuascrapy.items import XiaohuascrapyItem

words = '张馨予'

class XiaohuaSpider(scrapy.Spider):
    name = "xiaohua"
    allowed_domains = ["baidu.com"]
    custom_settings = {#重写存储路径
        'FILES_STORE' : '/图片/baidu/%s' % words
    }
    pn = 0

    def __init__(self , keywords = '' , *args , **kwargs):
        super(XiaohuaSpider , self).__init__(*args , **kwargs)
        self.url = 'http://image.baidu.com/search/flip?tn=baiduimage&word=' + words
        self.start_urls = [
            self.url
        ]

    def parse(self, response):
        item = XiaohuascrapyItem()
        item['file_urls'] = response.selector.re(r'''"objURL":"(http://[^"]+?)"''')
        yield item
        self.pn += 20
        yield scrapy.Request('%s%s%d' % (self.url , '&pn=' , self.pn) , self.parse)

4.设置setting文件

BOT_NAME = 'xiaohuascrapy'

SPIDER_MODULES = ['xiaohuascrapy.spiders']
NEWSPIDER_MODULE = 'xiaohuascrapy.spiders'
USER_AGENTS = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    ]

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'xiaohuascrapy (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
COOKIES_ENABLED = False
ITEM_PIPELINES = {
    'scrapy.pipelines.files.FilesPipeline': 100,
}
LOG_LEVEL = 'DEBUG'

到这里，基本就结束了，运行项目

scrapy crawl xiaohua

就会在磁盘根目录下生成一个图片文件夹，打开就可以看到图片了。

猜你喜欢

转载自blog.csdn.net/qq_32942549/article/details/79584420

笔记——scrapy 抓取图片

scrapy初探（抓取图片）

Scrapy 在shell下抓取图片

scrapy抓取校花网图片

【Python_Scrapy学习笔记（十三）】基于Scrapy框架的图片管道实现图片抓取

Scrapy抓取360网站图片

使用scrapy抓取百度的图片

实战scrapy抓取站长图片数据

Python笔记：爬虫框架Scrapy抓取数据入库及图片下载流程处理

Scrapy笔记-抓取虎嗅网

笔记-抓取今日头条图片

笔记--抓取王者荣耀盒子图片视频

Python爬虫 —— 抓取美女图片（Scrapy篇）

Scrapy(抓取)

scrapy 图片管道学习笔记

Scrapy学习笔记-利用requests库抓取猫眼电影排行

python学习笔记三：解析html（HTMLParser、SGMLParser），并抓取图片

Python爬虫学习笔记一：简单网页图片抓取

Python初识——Scrapy抓取二次元小姐姐图片

scrapy--pipelines基本用法--如何自定义ImagesPipeline抓取图片

Python使用Scrapy框架抓取LOL全部英雄皮肤图片（手机APP）

2018 - Python 3.7 爬虫之利用 Scrapy 框架抓取百度图片并保存（三）

Python+Scrapy批量抓取唯一图库图片并按系列存储

Scrapy+seleninu抓取内容同时下载图片几个问题

【Python_Scrapy学习笔记（十四）】基于Scrapy框架的文件管道实现文件抓取(基于Scrapy框架实现多级页面的抓取)

使用Scrapy抓取数据

scrapy抓取dmoz内容

scrapy抓取网站

scrapy抓取cnblog新闻

scrapy网页抓取项目

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)