python爬虫学习12 - 代码天地

python爬虫学习12

编程语言 2022-04-15 19:35:27 阅读次数: 0

python爬虫学习12

目录

- - python爬虫学习12
  - - robotparser
    - 本章结语

robotparser

上一篇我们一同了解了Robots协议，了解协议之后我们就可以使用robotparser模块来解析robot.txt文件了。
- RobotFileParser
  - 声明：
    
    只需要在使用该类时传入robot.txt的url连接即可
  - set_url ()方法：用来设置robot.txt文件的连接
  - read()方法：读取robot.txt文件进行分析
  - parse（）方法：用于解析robot.txt文件
  - can_fetch（）方法：有两个参数，第一个是user-Agent,第二个是要抓取的URL，返回的结果是 True 或 False 。表示user-Agent指示的搜索引擎是否可以抓取这个URL。
  - mtime（）方法：返回上次抓取和分析robots.txt的时间，这对于长时间分析和抓取robots.txt文件的搜索爬虫很有必要，我们要定期检查来抓取最新的robots.txt
  - modified（）方法：他同样对长时间抓取和分析的搜索爬虫很有必要，可以将当前时间设置为上次抓取和分析robots.txt文件的时间。
  - 实例
```
from urllib import robotparser

rp = robotparser.RobotFileParser()
rp.set_url('https://www.baidu.com/robots.txt')
rp.read()

# 用can_fetch 判断网页是否可以被抓取
print(rp.can_fetch('Baiduspider','https://www.baidu.com'))
print(rp.can_fetch('Baiduspider','https://www.baidu.com/homepage/'))
print(rp.can_fetch('Googlebot','https://www.baidu.com/homepage/'))

# 从结果我们可以看到 用Baiduspider可以抓取homepage页面，而Googlebot就不行。
```
    运行结果 :
    
    打开百度的robots.txt
    
    可以看到其对Baiduspider没有限制
本章结语

urllib库的使用到此结束，对于urllib库，我们学习了其中的request模块、error模块、parse模块以及robotparser模块的基本用法。下一篇我们将学习更加强大的requests库。

未完待续…

猜你喜欢

转载自blog.csdn.net/szshiquan/article/details/123389610

python爬虫学习12

python爬虫--12 股票爬虫

【Python爬虫学习笔记12】Ajax数据爬取简介

Python初学12-爬虫

python爬虫12：实战4

Python学习（爬虫学习）

Python爬虫学习：简单的爬虫

学习python12小时后，告诉想学爬虫的你，别怕，爬虫，没那么难抓

【Python3 爬虫学习笔记】基本库的使用 12—— 正则表达式 5

python 爬虫日志(12) selenium+chromeheadless

Python爬虫编程12——字体反爬

Python学习笔记12

Python学习日志（12）

python学习笔记-12

Python基础学习12

python学习 12 元组

python学习之路（12）

Python学习笔记 12

【python爬虫】12.建立你的爬虫大军

爬虫学习之12：多进程爬虫初试

Python爬虫学习

Python爬虫学习（四）

Python爬虫学习（三）

Python爬虫学习（二）

Python爬虫学习（一）

python爬虫专栏学习

Python爬虫学习（五）

Python——爬虫学习1

python爬虫学习记录

Python——爬虫学习2

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)