Scrapy 运行爬虫文件批量 - 代码天地

Scrapy 运行爬虫文件批量

其他 2018-12-09 15:08:04 阅读次数: 0

1.使用修改 crawl 源码 + 自定义命令方式实现

crawl 命令源码地址：https://github.com/scrapy/scrapy/blob/master/scrapy/commands/crawl.py

2.创建项目：scrapy startproject mymultispd

3.进入项目文件创建多个爬虫文件：scrapy genspider -t basic myspd1 sina.com.cn

scrapy genspider -t basic myspd2 sina.com.cn

scrapy genspider -t basic myspd3 sina.com.cn

4.crawl.py 中的源 run() 方法

def run(self, args, opts):
        if len(args) < 1:
            raise UsageError()
        elif len(args) > 1:
            raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")
        spname = args[0]

        self.crawler_process.crawl(spname, **opts.spargs)
        self.crawler_process.start()

        if self.crawler_process.bootstrap_failed:
            self.exitcode = 1

self.crawler_process.crawl(spname, **opts.spargs) 实现爬虫文件的运行,spname 指爬虫名
要获取所有爬虫文件，通过 self.crawler_process.spider_loader.list() 实现

5.建立一个文件夹存放要写的源码文件，位置放在 spider 同级目录下：

创建文件夹：mkdir mycmd
进入该文件夹创建一个Python文件：echo #>mycrawl.py
把 crawl.py 源码复制到这里面
在创建一个初始化文件：echo #>__init__.py

6.修改 run() 方法后的代码

    def run(self, args, opts):
        #获取爬虫列表
        spd_loader_list = self.crawler_process.spider_loader.list()
        #遍历各爬虫
        for spname in spd_loader_list or args:
            self.crawler_process.crawl(spname,**opts.spargs)
            print('此时启动的爬虫为：' + spname)
        self.crawler_process.start()

7.需要添加一个自定义命令在项目配置文件（settings.py）,格式为‘COMMANDS_MODULE = '项目核心目录.自定义命令源码目录'

COMMANDS_MODULE = 'mymultispd.mycmd'

8.随后进入该项目所在目录，输入 scrapy -h 可以看见自定义的命令 mycrawl

9.运行：scrapy mycrawl --nolog

猜你喜欢

转载自blog.csdn.net/zjkpy_5/article/details/84500318

Scrapy爬虫文件批量运行

Scrapy 运行爬虫文件批量

Scrapy 运行多个爬虫

爬虫scrapy

scrapy爬虫

爬虫---scrapy

scrapy 爬虫

爬虫_scrapy

爬虫框架Scrapy 之(二) --- scrapy文件

Scrapy：运行爬虫程序的方式

[爬虫框架scrapy]scrapy的安装

Scrapy爬虫笔记(scrapy、scrapy-redis、scrapyd部署scrapy)

Scrapy 框架，爬虫文件相关

使用scrapy爬虫框架批量下载图片

爬虫框架Scrapy 之(四) --- scrapy运行原理(管道）

scrapy爬虫与反爬虫

[爬虫框架scrapy]爬虫文件的创建

Scrapy(爬虫)基本运行机制

pycharm 运行调试scrapy爬虫项目

爬虫框架之Scrapy运行流程

同时运行多个scrapy爬虫

Pycharm中运行Scrapy爬虫程序

centos7运行scrapy爬虫

scrapy 安装及新建爬虫项目并运行

阿里云实现后台运行scrapy 爬虫

用Crontab定时运行scrapy爬虫

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

爬虫框架Scrapy（二）：Scrapy中的配置文件+日志

Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

Scrapy框架的使用之Scrapy通用爬虫

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)