【爬虫】解析-豆瓣网站规范`robots.txt`

【爬虫】解析-豆瓣网站规范robots.txt

robots.txt

User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5

User-agent: Wandoujia Spider
Disallow: /

User-agent: Mediapartners-Google
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/

解释

  • User-agent(用户代理)是一种用于标志特定抓取工具或一组抓取工具的手段
    • 注意用户代理区分大小写
    • 用法为User-agent: [user-agent]
    • 例如User-agent: *表示所有的抓取工具;User-agent: Wandoujia Spider表示豌豆荚的抓取工具;User-agent: Mediapartners-Google表示一种Google的抓取工具AdSense,该工具通过访问网站内容以便于提供相关的广告
  • Disallow(不允许)用于指定抓取工具不能访问的路径
    • 路径值需要以"/"开头,表示根目录,路径区分大小写
    • 路径结尾没有斜杆表示此项与此文件夹中的内容均匹配。以/subject_search为例,可以匹配为/subject_search*/subject_search/*(注意*为通配符,表示0个或多个有效字符串)
    • 路径结尾有斜杆表示此文件夹中的内容均匹配。以/forum/为例,可以匹配为/forum/*,不能匹配/forum*(此处的通配符*不包含/符号)
    • 如果未指定路径,该命令将被忽略
    • 用法为Disallow: [path]
    • 例如Disallow: /subject_search表示该抓取工具不可以抓取/subject_search*/subject_search/*路径的内容;Disallow: /forum/表示该抓取工具不可以抓取/forum/*路径的内容;Disallow: /表示该抓取工具不可以抓取/*路径下的所有内容
  • Allow(允许)用于指定相应抓取工具可以访问的路径
    • 路径值同上
    • 用法为Allow: [path]
    • 例如Allow: /ads.txt表示该抓取工具可以抓取/ads.txt路径的内容
  • Sitemap(站点地图)是网站管理员用于通知搜索引擎该网站可以爬取页面内容的一种简单方式
    • Google、Bing和其他主要搜索引擎都支持Sitemap
    • Sitemap可以指向站点地图、站点地图索引文件或等效网址
    • Sitemap可以有多个条目
    • 用法为Sitemap: [absoluteURL]
    • 例如Sitemap: https://www.douban.com/sitemap_index.xml
      Sitemap: https://www.douban.com/sitemap_updated_index.xml指定了豆瓣的站点地图索引文件及站点地图索引更新文件
  • Crawl-delay()用于指定抓取工具请求抓取的频率,以秒为单位
    • 用法为Crawl-delay: [number]
    • 例如Crawl-delay: 5表示抓取工具两次进入站点访问的间隔时间为5秒
  • 注意:path路径遇到Disallow和Allow相冲突时,最具体的路径值优先级更高。例如Disallow: /Allow: /search同时存在时,结果为Allow: /search

参考

发布了4 篇原创文章 · 获赞 3 · 访问量 188

猜你喜欢

转载自blog.csdn.net/msgsvc/article/details/104771904
今日推荐