爬虫的基本原理：爬虫能爬什么数据 - 代码天地

爬虫的基本原理：爬虫能爬什么数据

编程语言 2023-04-07 20:02:44 阅读次数: 0

爬虫可以爬取的数据大致有四类：

网页源代码。最常见的便是常规网页，它们对应着HTML代码，而最长抓取的便是HTML源代码。
JSON字符串。可能有些网页返回的不是HTML源代码，而是一个JSON字符串（API接口大多采用这种形式），这种格式的数据方便传输和解析，爬虫同样可以爬取，而且数据提取更加方便。
二进制数据。各种二进制数据，如图片、视频和音频等，利用爬虫可以将这些二进制数据抓取下来，然后保存成对应的文件名。
各种扩展名的文件。如CSS、JavaScript和配置文件等，只要在浏览器里面可以访问到，就可以将其抓取下来。

上述内容其中都对应各自的URL，是基于HTTP或HTTPS协议的，只要是这种数据，爬虫都可以爬取。

猜你喜欢

转载自blog.csdn.net/m0_43404934/article/details/122274484

爬虫的基本原理：爬虫能爬什么数据

爬虫基本原理

爬虫的基本原理

爬虫——基本原理

数据爬虫（一）：爬虫的基本原理介绍

909422229_数据爬虫：爬虫的基本原理介绍

爬虫----爬虫基本原理

PYTHON爬虫（爬虫的基本原理）

【爬虫】一、爬虫的基本原理

爬虫基本原理 --网络爬虫

爬虫笔记：爬虫的基本原理

爬虫基础-爬虫的基本原理

数据采集爬虫ip代理基本原理

芝麻HTTP：爬虫的基本原理

网络爬虫基本原理

网络爬虫基本原理(二)

网络爬虫基本原理(一)

爬虫基本原理及概念

六、爬虫基本原理、代理

网络爬虫--基本原理(2)

【01】Python爬虫：基本原理

爬虫基本原理详解

爬虫基础之基本原理

爬虫--基本原理讲解

python爬虫基本原理

爬虫基本原理讲解

爬虫基础-HTTP基本原理

爬虫的基本原理介绍

python爬虫的基本原理

04-爬虫的基本原理

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)