Python爬虫笔记3 |对网络爬虫的限制

01 网络爬虫的尺寸

  • Requests库----爬取网页,玩转网页
  • Scrapy库----爬取网站,爬取系列网站
  • 定制开发----爬取全网

02 网络爬虫的限制

  • 来源审查:判断User-Agent进行限制
    检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问。

  • 发布公告:Robots协议
    告知所有爬虫网站的爬取策略,要求爬虫遵守。

03 Robots协议

  • 网络爬虫排除标准
  • 形式:在网站根目录下的Robots.txt文件。
  • 基本语法
    User-agent:*
    Disallow:/
发布了51 篇原创文章 · 获赞 5 · 访问量 4198

猜你喜欢

转载自blog.csdn.net/qq_43519498/article/details/93206654