爬虫基础简介

其他 2021-11-30 02:33:58 阅读次数: 0

第一章：爬虫基础简介

什么是爬虫：
– 通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。
爬虫的价值:
– 实际应用
– 就业
爬虫是否违法？

在法律中是不被禁止的
具有违法风险
爬虫带来的风险可以体现在如下2方面：
- 爬虫干扰了被访问网站的正常运营
- 爬虫抓取了受到的法律保护的特定类型的数据或信息
如何避免进入局子：优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私，或商业机密等敏感内容，需要及时停止爬取或传播

爬虫在使用场景中的分类：

通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容增量式爬虫检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬虫的矛与盾：

反爬机制：门户网站，可以通过相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。
反反爬策略：爬虫程序可以制定相应的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

robots.txt协议：（反爬）

君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

http协议（HyperText Transfer Protocol）超文本传输协议

概念：服务器和客户端进行数据交互的一种形式。

常用请求头信息
– User-Agent：请求载体的身份标识
– Connection：请求完毕后，是断开连接还是保持连接
常用响应头信息
– Content-Type：服务器响应回客户端的数据类型
https协议
– 安全的超文本传输协议（数据加密）
加密方式

对称秘钥加密
非对称秘钥加密
证书秘钥加密

猜你喜欢

转载自blog.csdn.net/qq_38499019/article/details/114557576

爬虫基础简介

一、爬虫基础简介

python爬虫（1） - 基础简介

01.爬虫基础简介

爬虫-scrapy框架简介和基础应用

爬虫简介

爬虫（简介）

爬虫-----------简介

爬虫学习----爬虫简介

爬虫(一)：爬虫简介

python爬虫----scrapy框架简介和基础应用

爬虫学习 10.scrapy框架简介和基础应用

爬虫基础简介——第一章

01_爬虫基础知识和requests模块简介

python爬虫实战之旅（第一章：爬虫基础简介）

网络爬虫简介！网络爬虫简介！

python爬虫整理——爬虫简介

爬虫与反爬虫技术简介

scrapy 爬虫框架简介

python爬虫(一)简介

网络爬虫简介

python爬虫简介

python爬虫1 简介

Webmagic爬虫案例简介

网络爬虫的简介

爬虫简介与request模块

爬虫介绍及Scrapy简介

Python网络爬虫——简介

爬虫简介与基本语法

Scrapy网络爬虫简介

今日推荐

周排行

强化学习 baselines项目源码部分解读

转载一个 mui 等待动画 mui.showLoading

接口的继承

ORC图像识别

Teleport Ultra 扒站神器（附下载链接）

Leetcode-189-Rotate Array

日常练习 1.0

使用UE4制作简单的局域网对战小游戏

分布式系统的CAP定理

35、mysql存储引擎

每日归档

更多

2025-03-24(0)

2025-03-23(0)

2025-03-22(0)

2025-03-21(0)

2025-03-20(0)

2025-03-19(0)

2025-03-18(0)

2025-03-17(0)

2025-03-16(0)

2025-03-15(0)