东方财经财富号爬虫流程(4) -- ip 代理池组件

组件

ip 代理组件作为一个单独的公共模块方便复用:
在这里插入图片描述

ip 代理对象

将每一个 ip 代理抽象为一个类:
在这里插入图片描述

ProxyPool

初始化

在这里插入图片描述

爬取

在这里插入图片描述
将 爬取 ip 的实现委托给 proxy_strategy (GetProxyStrategy 类的实例)。

爬取并且定期的健康检查

在这里插入图片描述

在这里插入图片描述

随机选取可用 ip

在这里插入图片描述

GetProxyStrategy

真正解析网站获取 ip 的类。 如果我们买了自己的 ip 代理,可以替换掉这里。 具体看代码吧,这里不再截图。

加入中间件

在 middlewares 中加入代理中间件:
在这里插入图片描述
在这里插入图片描述

更新时间: 2019-12-19

发布了291 篇原创文章 · 获赞 104 · 访问量 41万+

猜你喜欢

转载自blog.csdn.net/Enjolras_fuu/article/details/103609620