版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fengzheku/article/details/53929694
1、出现了403的错误,如下所示:
DEBUG: Crawled (403) <GET
https://movie.douban.com/subject_search?search_text=28%E5%B2%81%E6%9C%AA%E6%88%90%E5%B9%B4
> (referer: None)
原因是代理被禁止访问,解决方法:
在settings配置文件里修改不设置代理
DOWNLOADER_MIDDLEWARES
= {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, }
2、出现了Forbidden by robots.txt的错误
[scrapy] DEBUG: Forbidden by robots.txt: <GET https://movie.douban.com/subject_search?search_text=28%E5%B2%81%E6%9C%AA%E6%88%90%E5%B9%B4>
原因是scrapy是遵守robot协议的,在访问网址前会先访问robot.txt来查看自己是否有权限访问。如果网站不允许被爬,就不能访问。
解决方法,设置不遵守robot协议:
ROBOTSTXT_OBEY = False
3、为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置
ITEM_PIPELINES = { 'tutorial.pipelines.TutorialPipeline': 300, }