如何给网站加上robots.txt、robots.txt有什么用？ - 代码天地

如何给网站加上robots.txt、robots.txt有什么用？

其他 2020-02-22 11:15:17 阅读次数: 0

一、什么是Robots.txt？
Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

当搜索蜘蛛访问这个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索蜘蛛就会先读取这个文件的内容所以Robots.txt 文件应该放在网站根目录下，并且该文件是可以通过互联网进行访问的。

二、文件写法

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: / 这里定义是禁止爬寻站点所有的内容

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图告诉爬虫这个页面是网站地图

X陈文

发布了42 篇原创文章 · 获赞 26 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/doukalove/article/details/103701629

如何给网站加上robots.txt、robots.txt有什么用？

如何使用robots.txt

关于robots.txt

robots.txt

robots.txt与SEO

“robots.txt”简介

robots.txt文件

使用robots.txt

robots.txt协议

网站robots.txt文件说明（2）

网站robots.txt文件说明

抓取网站小窍门 | robots.txt

如何防止利用robots.txt查找到网站后台

[转]如何写robots.txt？

nuxt 如何添加robots.txt文件

robots.txt文件解读

robots.txt文件的格式

笔记-爬虫-robots.txt

robots.txt文件详解

robots.txt防爬虫

robots.txt文件示例

爬虫之robots.txt

关于robots.txt的实例

【转】Robots.txt和Robots META

robots.txt写法_怎么写robots

什么是robots协议？网站中的robots.txt写法和作用

网站优化攻略:Robots.txt使用指南

网站根目录 robots.txt 文件写法

【爬虫】解析-豆瓣网站规范`robots.txt`

解析网站robots.txt是否可以爬取

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)