python scrapy d 去重

1. scrapy对request的URL去重

yield scrapy.Request(url, self.parse, dont_filter=False)

注意这个参数:dont_filter=False

2. Jobs: 暂停,恢复爬虫

启用一个爬虫的持久化,运行以下命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

然后,你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。
恢复这个爬虫也是同样的命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

这样爬虫断掉后,再启动会接着上次的 url 跑。

详细请看 https://www.howtoing.com/scra...

如果命令行里不想看到那么多输出的话,可以加个 -L WARNING 参数
运行爬虫如:

scrapy crawl spider1 -L WARNING

不打印Debug信息,可以清楚得看到运行过程。

猜你喜欢

转载自blog.csdn.net/mjp_erhuo/article/details/80420979
今日推荐