Scrapy爬虫执行中yield请求未被抛出(或抛出未执行)解决方法(亲测有效)

当我们在执行scrapy调试的时候可能会遇到yield请求未正确抛出的情况。

1、查看scrapy执行日志

日志中的这一项表示,我们的请求被过滤掉了20条。

解决方法:

1、将我们的请求ip地址域名(如:blog.csdn.net)添加到spider爬虫文件的allowed_domains数组中

(另外:我们的允许请求域名中,域名后不需要添加‘/’号,否则会将我们正常的请求过滤掉)

2、在我们的yield Request请求中添加

dont_filter=True

再次执行爬虫文件即可正常执行,并进行下一个请求的获取和执行。

猜你喜欢

转载自blog.csdn.net/qq_32670879/article/details/85042464