爬虫的概念和基本流程基本了解（二）

HTTPS比HTTP更安全，但性能更低

HTTP：超文本传输协议，默认端口号是80
- 超文本：是指超过文本，不仅限于文本；还包括图片、音频、视频等内容
- 传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容
HTTPS：HTTP+SSL(安全套接字层)，即带有安全套接字层的超文本传输协议，默认端口号是443
- SSL对传输的内容（超文本，也就是请求体或响应体）进行加密
可以打开一个浏览器访问一个url，右键检查，点击net work，点击一个url，查看http协议的形式
他们的连接方式不同，HTTP连接简单，明文传输，是无状态的，而HTTPS由于有了SSL所以是加密传输的，更加安全。
HTTPS需要到ca申请证书，多半都是要花钱。

常见的请求头与响应头

请求头

响应头

Webkit浏览器引擎数据库和模板渲染成一个结果返回来浏览器引擎就是用来将结果返回给用户的自动将文件结果做成一个效果返回给用户

302 跳转新的url在响应的Location头中给出

303 浏览器对于POST的响应进行重定向至新的url

307 浏览器对于GET的响应重定向至新的url

503 服务器由于维护或者负载过重未能应答，在响应中可能会携带Retry-After响应头；有可能是因为爬虫频繁访问url，使服务器忽视爬虫的请求，最终返回503。

在爬虫中多了博弈的过程，状态码是不可信的，一切以是否抓包得到的响应中获取到的数据为准。

network中抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码，不能作为判断标准。

浏览器

发送所有请求，进行渲染

爬虫

只发送指定请求，不会渲染

浏览器展示的结果可以由多次请求对应的多次响应共同渲染出来，而爬虫是一次请求对应的一个响应

骨骼文件

html静态文件

肌肉文件

js/ajax请求

皮肤

css/font/图片等

抓包过程：

注意：

但是在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应（该响应的内容可以是html，css，js，图片等）

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样，是因为爬虫不具备渲染的能力

发布了104 篇原创文章 · 获赞 33 · 访问量 3万+

私信关注