1.简介
什么是爬虫?
爬虫就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
爬虫的价值:
抓取大量数据。为自己所用
违法or合法
- 法律上是不被禁止
- 具有违法风险
带来的风险
- 干扰了网站正常运营
- 抓取受到法律保护的特定类型的数据或信息
如何避免被请去喝茶
- 时常优化程序,避免干扰网站正常运行
- 审查抓取到的内容,如果发现涉及到用户隐私或商业机密等内容,及时停止
1.2使用场景分类
-
通用爬虫
抓取系统重要组成部分,抓取的是一整张页面数据 -
聚焦爬虫
建立在通用爬虫基础之上,抓取的是页面中指定内容 -
增量式爬虫
检测网站中数据更新的情况,只抓取最新更新出来的数据
1.3 反爬机制
门户网站,通过制订相应的策略和技术手段,阻止对网站数据的爬取
1.4 反反爬策略
破解反爬机制
1.5 robots.txt协议
君子协议,规定了网站中哪些数据可以被爬取,哪些不可以被爬取
1.6 http协议
服务器和客户端进行数据交互的一种形式
1.7 常用请求头信息
1. User-Agent: 请求载体的身份标识
2. Connection: 请求完毕后,是断开还是保持连接:
1.8 常用响应头信息
1.Content-Type:服务器响应会客户端的数据类型
1.9 https协议
安全的超文本传输协议
进行数据加密
1.10 数据加密
1. 对称密钥加密
2. 非对称密钥加密
3. 证书密钥加密