网站提供者检测爬虫的手段:
1、检查User-Agent
应对:构造User-Agent和refer字段
2、检测用户行为,如同一个IP短时间内频繁登录
应对:代理IP,设置sleep时间
3、动态页面
应对:Selenium和phantomJS
为了防止在爬取中被对方禁止,下面我们在Scrapy中实现如下:
1、禁止Cookie
2、设置下载延时
3、使用IP池
4、使用用户代理池
5、分布式爬取
网站提供者检测爬虫的手段:
1、检查User-Agent
应对:构造User-Agent和refer字段
2、检测用户行为,如同一个IP短时间内频繁登录
应对:代理IP,设置sleep时间
3、动态页面
应对:Selenium和phantomJS
为了防止在爬取中被对方禁止,下面我们在Scrapy中实现如下:
1、禁止Cookie
2、设置下载延时
3、使用IP池
4、使用用户代理池
5、分布式爬取