七月在线爬虫班学习笔记（八）——分布式爬虫框架设计

其他 2018-05-14 16:52:03 阅读次数: 2

第八课主要内容：

分布式爬虫框架简介（控制模式与自由模式）
消息队列
Redis介绍操作及队列应用
Scrapy-Redis介绍及项目实战

这节课主要是代码的讲解，并且讲解了scrapy-redis部分的源码；最后给出了一个爬虫代码实例。关于scrapy-redis的代码大家自行下载学习即可。

操作redis实例：

import redis

r = redis.Redis(host = 'localhost', port = 6379, db = 1)
r.set('k1', 'v1')
r.set('k2', 'v2')
print(r.get('k1'))
print(r.keys())
print(r.dbsize())
r.delete('k2')
print(r.keys())
print(r.dbsize())
print(dir(r))

#pipeline
p = r.pipeline()
p.set('k3', 'v3')
p.set('k4', 'v4')
p.incr('num')
p.incr('num')
p.execute()
print(r.get('num'))

import redis

class Task:
    def __init__(self):
        self.rcon = redis.Redis(host = 'localhost', db = 5)
        self.queue = 'task:prodcons:queue'

    def process_task(self):
        while True:
            task = self.rcon.blpop(self.queue, 0)[1]
            print('Task: ', task)

Task().process_task()

import redis

class Task:
    def __init__(self):
        self.rcon = redis.Redis(host = 'localhost', db = 5)
        self.ps = self.rcon.pubsub()
        self.ps.subscribe('task:pubsub:channel')

    def process_task(self):
        for i in self.ps.listen():
            if i['type'] == 'message':
                print('Task: ', i['data'])

Task().process_task()

猜你喜欢

转载自www.cnblogs.com/xingbiaoblog/p/9036747.html

七月在线爬虫班学习笔记（八）——分布式爬虫框架设计

七月在线爬虫班学习笔记（一）

七月在线爬虫班学习笔记（三）——爬虫基础知识与简易爬虫实现

七月在线爬虫班学习笔记（六）——scrapy爬虫整体示例

七月在线爬虫班学习笔记（二）——Python基本语法及面向对象

七月在线爬虫班学习笔记（五）——scrapy spider的几种爬取方式

Python爬虫项目班（七月在线）

七月Python基础入门+进阶熟练班+ 数据分析班+爬虫项目

Python七月(基础入门进阶熟练班数据分析班爬虫项目)

分布式服务框架设计

21天打造分布式爬虫-Scrapy框架（七）

Scrapy框架学习（八）----Scrapy-redis分布式爬虫学习

akka分布式爬虫框架(一)——设计思路与demo

七月在线自然语言课程学习笔记

前沪江高级架构师学习笔记分享：分布式框架设计与实现

七月在线Spark大数据实战班

Gerapy分布式爬虫管理框架

分布式通用爬虫框架Crawlab

基于scrapy框架的分布式爬虫

scrapy框架之分布式爬虫

七月在线机器学习

基于Hadoop 的分布式网络爬虫技术学习笔记

分布式爬虫架构设计

分布式服务框架设计指标

分布式任务编排调度框架设计

【分布式-1】RPC框架设计，Netty

分布式爬虫

爬虫分布式

Python分布式爬虫学习（一）

python爬虫学习：分布式抓取

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)