Robots.txt泄露敏感信息

其他 2021-01-23 10:49:49 阅读次数: 0

Robots.txt泄露敏感信息

Robots是什么？

Robots是网址和爬虫之间的协议，网站通过robots协议（robots.txt）来告诉搜索引擎哪些页面可以进行抓取。

搜索蜘蛛在访问一个网站时，会首先检查站点跟目录下是否存在robots.txt，之后按照文件中的内容规定来确定访问的范围。

Robots.txt 泄露敏感信息的原因是什么？

robots.txt文件本身没有什么漏洞，它是告诉搜索引擎蜘蛛哪些文件可以爬行，哪些不可以爬行。而我们一般在写robots.txt文件的时候，为了防止搜索引擎蜘蛛的爬行，会写入路径。然而robots.txt大多会定义网站的后台地址或数据库地址，可能会泄露敏感信息。

扫描robots漏洞的方式：

可以通过使用工具爬虫，对网站敏感文件目录进行扫描，对robots文件进行爬取。或者直接在url链接后添加/robots.txt进行测试。

如何修复？

首先我们要明确，robots.txt不应该被用来保护/隐藏信息。应该将敏感的文件和目录移到另一个隔离的子目录，以便将这个目录排除在Robots搜索之外。
robots.txt内容可设为Disallow: /，禁止搜索引擎访问网站的任何内容。

各位也可以从网上找robots生成器，按照自己的要求生成robots进行研究。

我也在安全的方向慢慢摸索，这些都当我自己的小笔记，欢迎大家指点批评。

猜你喜欢

转载自blog.csdn.net/zHx981/article/details/112181140

Robots.txt泄露敏感信息

robots.txt

关于robots.txt

robots.txt与SEO

“robots.txt”简介

robots.txt文件

使用robots.txt

robots.txt协议

如何使用robots.txt

robots.txt文件解读

robots.txt文件的格式

笔记-爬虫-robots.txt

robots.txt文件详解

robots.txt防爬虫

robots.txt文件示例

爬虫之robots.txt

关于robots.txt的实例

【转】Robots.txt和Robots META

robots.txt写法_怎么写robots

robots.txt在SEO中作用

网站robots.txt文件说明（2）

网站robots.txt文件说明

[转]如何写robots.txt？

Robots.txt 协议标准介绍

爬虫出现Forbidden by robots.txt

website robots.txt 防爬虫措施

【scrapy】爬虫中报Forbidden by robots.txt

抓取网站小窍门 | robots.txt

禁爬虫robots.txt文件

WordPress最佳的robots.txt规则

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)