爬虫从入门到出门 - 代码天地

爬虫从入门到出门

其他 2018-05-07 08:57:04 阅读次数: 5

爬虫从入门到出门
javascript
Ajax API

网页源码会被解析为DOM树
网络爬虫的常见流程：
循环：从待爬取库中取出URL–抓取取出的URL–解析抓取网页中的结构化数据–探测抓取网页中的URL–去除探测到的URL中已爬取过的URL，将剩下的未爬取的UR了放入待爬取库中
主要组件：
历史URL库；HTTP请求组件；网页结构化数据抽取组件；新URL探测组件；URL去重组件
正则表达式
CSS选择器或XPath（元素定位器）是浏览器JS提供的在该数据结构上获取节点的特征。
爬虫框架
解决的问题：并行爬取，URL去重，保存历史信息，探测新的URL，为为开发者提供网页解析接口（CSS选择器，XPath等），为开发者提供http请求定制接口（模拟登录，post表单等）
常用框架：
通用爬虫框架：为搜索引擎服务，大规模下载网页，对网页进行粗粒度的内容抽取，提交到索引。举例：Nutch,heritrix
精数据采集爬虫框架：采集特定结构化数据举例： java:Wecollector,Webmagic
python:SCRAPH
通用选取考虑点：量级，优秀的URL维护机制，自动探测URL，对页面重复爬取以探测新URL，便于定制，扩展。
精数据采集爬虫框架：网页抽取支持是否优秀，可否深度定制Http请求，深度定制URL探测机制，去重组件是否有效率瓶颈，能够断点采集，能否处理由javascript加载的数据。
分布式爬虫利用集群解决爬虫计算，存储和带宽资源等问题
基于Map-Reduce的分布式爬虫
基于分布式消息队列的分布式爬虫

猜你喜欢

转载自blog.csdn.net/m0_37975258/article/details/79664323

爬虫从入门到出门

精选：Python爬虫从入门到出门（一）

PyTorch从入门到出门

vuex从入门到出门

Java从入门到出门-目录

Qt for android （从入门到出门）

MapStruct从入门到出门（一）

Python——requests入门到出门

Python——字典从入门到出门

网络从入门到出门系列（一）

网络从入门到出门系列（二）

网络从入门到出门系列（三）

d3从入门到出门

SpringCloud学习系列〇nacos从入门到出门

MMDetection 使用示例：从入门到出门

防火墙【从入门到出门】

数据库从入门到出门之一

数据库从入门到出门之四

数据库从入门到出门之三

数据库从入门到出门之二

SQL从入门到出门第8篇多表连接查询

SQL从入门到出门第7篇分组与汇总

SQL从入门到出门第12篇集合运算

SQL从入门到出门第11篇子查询

SQL从入门到出门第13章简单视图

SQL 从入门到出门第 15 章维护表结构

SQL 从入门到出门第14章数据操作

PostgreSQL 从入门到出门第 4 篇角色与用户

SQL从入门到出门示例数据库

PostgreSQL 从入门到出门第 9 篇简单查询

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)