爬虫的应对措施

网站提供者检测爬虫的手段:


1、检查User-Agent

        应对:构造User-Agent和refer字段

2、检测用户行为,如同一个IP短时间内频繁登录

        应对:代理IP,设置sleep时间

3、动态页面

        应对:Selenium和phantomJS



为了防止在爬取中被对方禁止,下面我们在Scrapy中实现如下:

    1、禁止Cookie

    2、设置下载延时

    3、使用IP池

    4、使用用户代理池

    5、分布式爬取

猜你喜欢

转载自blog.csdn.net/sun_daming/article/details/80186281