Redisspider的爬虫和scrapy.spider的区别 - 代码天地

Redisspider的爬虫和scrapy.spider的区别

其他 2019-01-26 12:00:23 阅读次数: 0

Redisspider的爬虫和scrapy.spider的区别

Redisspider 分布式爬虫，请求的持久化，去重的持久化

区别
- 父类不一样，RedisSpider
- start_urls没有了，多了redis_key ，往redis_key存入start_url地址
- settings 中多了几行配置
创建爬虫
- scrapy genspider 爬虫名爬取范围
- 修改父类名
- 修改redis_key
启动爬虫
- 1. 让爬虫就绪：scrapy crawl 爬虫名
- 1. redis中存入url地址：lpush redis_key url

RedisCrawlSpider的爬虫和crwalspdier的区别

RedisCrawlSpider 分布式爬虫，请求的持久化，去重的持久化

区别
- 父类RedisCrawlSpider
- start_urls没有了，多了redis_key ，往redis_key存入start_url地址
- settings 中多了几行配置
创建爬虫
- scrapy genspider -t crawl 爬虫名爬取范围
- 修改父类名
- 修改redis_key
启动爬虫
- 1. 让爬虫就绪：scrapy crawl 爬虫名
- 1. redis中存入url地址：lpush redis_key url

crontab使用的方法

分钟小时日月星期命令
30 9 8 * * ls #每个月的8号的9：30执行ls命令

在爬虫中使用crontab

1. 爬虫启动命令写入脚本文件

cd `dirname $0`
scrapy crawl 爬虫名 >> run.log 2>&1

1. 给脚本添加可执行权限
- chmod +x run.sh
1. 把脚本文件添加到crontab的配置中
- 30 6 * * * /home/python/myspider/run.sh

猜你喜欢

转载自blog.csdn.net/weixin_44090435/article/details/86653993

Redisspider的爬虫和scrapy.spider的区别

scrapy简单爬虫（scrapy.Spider）与深度爬虫（spiders.CrawlSpider）的对比

scrapy笔记一（scrapy.Spider爬取文字并储存）

Python scrapy框架教学（三）：scrapy.Spider

scrapy 分布式爬虫- RedisSpider

scrapy中spider和crawlspider的区别

爬虫--Scrapy-基于RedisSpider实现的分布式爬虫

Scrapy框架之基于RedisSpider实现的分布式爬虫

爬虫框架Scrapy的组件spider

Spider、xmlSpider、FeedSpider、CrawlSpider、RedisSpider分别作用

scrapy爬虫框架多个spider指定pipeline

Scrapy 学习笔记 - 爬虫类 Spider

Python Scrapy爬虫框架的安装和使用测试（解决 error: no moudle named Spider问题）

Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用

Spider-聚焦爬虫与通用爬虫的区别

python爬虫(十三)-------------------HelloWorld级scrapy(scrapy spider组件)

Scrapy爬虫入门教程四 Spider（爬虫）

【spider】爬虫学习路线-精通Scrapy网络爬虫

Scrapy——Spider

Scrapy: Spider

scrapy 监控spider启动和关闭

Scrapy的Spider类和CrawlSpider类

CrawlSpider（规则爬虫）和Spider版爬虫

Scrapy-Redis之RedisSpider与RedisCrawlSpider

scrapy爬虫之scrapyd-client管理spider

4.5. scrapy两大爬虫类_Spider

Python爬虫：scrapy框架Spider类参数设置

配置Pycharm的Scrapy爬虫Spider子类通用模板

Python笔记：爬虫框架Scrapy之Spider的原理

爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)