Python：带你认识爬虫

企业开发 2022-06-03 22:48:05 阅读次数: 0

1、什么是爬虫？

网络爬虫（又称为网页蜘蛛、网络机器人），是一种按照一定规则，自动地抓取万维网信息的程序或者脚本。

2、一般爬虫的结构

网络爬虫的基本工作流程如下∶
1、首先选取一部分 URL。

2、将这些 URL放入待抓取URL 队列。

3、从待抓取 URL 队列中读取待抓取队列的URL，解析 DNS，并且得到主机的 IP，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL 放进已抓取URL 队列。

4、分析已抓取 URL 队列中的URL，从已下载的网页数据中分析出其他 URL，并和已抓取的URL 进行比较去重，最后将去重过的URL 放入待抓取URL队列，从而进入下一个循环。

这便是一个基本的通用网络爬虫框架及其工作流程。

3、爬虫的分类

网络爬虫按照系统结构和实现技术，大致可以分为：
通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层次网络爬虫。
聚焦网络爬虫;
       聚焦爬虫是一种自动下载网页的程序，它根据既定的抓取目标，有选择地访问万维网上的网页与相关的链接，获取所需要的信息。
与通用爬虫不同，聚焦爬虫并不追求大的覆盖，而是将目标定为抓取某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。
增量式网络爬虫：
       增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证
所爬行的页面尽可能是新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载
没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行的算法复杂度和实现难度。
深层网络爬虫：
       Web页面按照存在方式分为表层网页和深层网页。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的
Web页面。深层次网络是指那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

猜你喜欢

转载自blog.csdn.net/qq_45801904/article/details/123720347

Python：带你认识爬虫

0基础带你认识爬虫

python的入门，带你全新认识python

从零带你认识python闭包

带你认识Proxy

带你认识Properties

带你认识ButterKnife

带你认识ClassLoader

带你认识Linux

python爬虫带你弯道超车！

带你入门python爬虫requests库

Python网络爬虫入门，带你领略Python爬虫的乐趣！

[人间也值得] - Mryang带你快速得去认识 Python

众志成城！春暖花开！带你认识Python

带你真正认识View

带你全面认识 Linux

带你彻底认识String

从Architecture带你认识JVM

这篇文章带你轻松入门 python 爬虫

python爬虫带你玩转日系P站

手把手带你入门Python爬虫!

一、Python爬虫-认识爬虫

简单认识Python爬虫

Python爬虫--认识Fiddler

灵调：带你认识你的皮肤

python学习手册问答 | 带你全面认识python

Python的三大框架，带你认识python的三大框架

带你认识OSI，network就靠它

带你快速认识MOS管

带你认识神奇的Gumbel trick

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)