python爬虫学习(一)

编程语言 2022-04-06 16:18:08 阅读次数: 0

1.简介

什么是爬虫？

爬虫就是通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

爬虫的价值：

抓取大量数据。为自己所用

违法or合法

法律上是不被禁止

具有违法风险

带来的风险

干扰了网站正常运营

抓取受到法律保护的特定类型的数据或信息

如何避免被请去喝茶

时常优化程序，避免干扰网站正常运行

审查抓取到的内容，如果发现涉及到用户隐私或商业机密等内容，及时停止

1.2使用场景分类

通用爬虫
抓取系统重要组成部分，抓取的是一整张页面数据
聚焦爬虫
建立在通用爬虫基础之上，抓取的是页面中指定内容
增量式爬虫
检测网站中数据更新的情况，只抓取最新更新出来的数据

1.3 反爬机制

门户网站，通过制订相应的策略和技术手段，阻止对网站数据的爬取

1.4 反反爬策略

破解反爬机制

1.5 robots.txt协议

君子协议，规定了网站中哪些数据可以被爬取，哪些不可以被爬取

1.6 http协议

服务器和客户端进行数据交互的一种形式

1.7 常用请求头信息

1.  User-Agent: 请求载体的身份标识
2. Connection： 请求完毕后，是断开还是保持连接：

1.8 常用响应头信息

1.Content-Type：服务器响应会客户端的数据类型

1.9 https协议

安全的超文本传输协议
进行数据加密

1.10 数据加密

1. 对称密钥加密
2. 非对称密钥加密
3. 证书密钥加密

猜你喜欢

转载自blog.csdn.net/pggril/article/details/123901426

Python爬虫学习（一）

python 爬虫学习（一）

Python爬虫学习一

python爬虫学习(一)

python爬虫学习笔记(一)-爬虫介绍

Python爬虫学习（一）——爬虫基础

python学习之爬虫一

Python网络爬虫学习（一）

Python爬虫学习笔记一

Python爬虫学习笔记（一）

Python爬虫开发学习（一）

python爬虫学习笔记（一）

Python学习-网络爬虫(一)

Python爬虫图片学习(一)

Python网络爬虫学习笔记（一）

Python实现网络爬虫基础学习（一）

Python分布式爬虫学习（一）

《精通python网络爬虫》学习笔记一

python3 爬虫学习日记【一】

《用Python写爬虫》学习笔记（一）

学习Python之网络爬虫（一）

Python爬虫学习笔记总结(一)

python爬虫学习笔记一-----开篇前言

Python爬虫入门学习实战项目（一）

python3爬虫学习（一）

python爬虫------scrapy学习笔记（一）

Python进阶学习（一）网络爬虫

Python爬虫学习（一）Requests库入门

新手学习Python 爬虫笔记（一）

Python爬虫学习:一些库

今日推荐

deepseek热度已过？

MOOC习题:“GPS数据处理”题目个人解析(C语言)

DeepSeek接入微信公众号小白保姆教程

图+语义：RDF语义处理组件Neosemantics功能列表

大语言模型Prompt工程之使用GPT4生成图数据库Cypher

大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher

GPT-3.5 生成 Fabric Cypher

生成 Cypher 能力：GPT3.5 VS ChatGLM

LangChain 2 ONgDB：大模型+知识图谱实现领域知识问答

生成 Cypher 能力：MOSS VS ChatGLM

Neo4j/ONgDB 图数据库快速处理 Excel 文件

LangChain-Agents 入门指南

周排行

blog公告

Lucene：基本增删改查（Java方式）

1、类库

android环信集成单聊功能

删除数据库表数据SQL语句

rhel6.3安装Percona XtraDB Cluster 5.7时错误的解决方法

天梯赛-堆栈（线段树）

ES6原生Class

20120607

张正友标定算法原理详解

每日归档

更多

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)