声明:该笔记为学习黑马程序员爬虫视频的时候整理的,纯属笔记,无其他意图。
爬虫地址
- 爬虫地址URL为网页源码Name栏首个文件对应network标签下的Request URL
- elements的内容与爬虫获取到的URL地址响应不同,因为elements内容包括:URL响应+js+css+图片,而爬虫只包含第一部分。
http协议与https协议
- http协议(超文本传输协议):
- 以明文形式传输
- 效率高但不安全
- https协议(http+ssl安全套接字层):
- 传输之前数据先加密,之后解密获取内容
- 效率低但安全
http协议之请求
get请求与post请求
- get没有请求体,get请求把数据放到URL地址中;post有请求体,post请求把数据放到请求体中。
- post常用于登录注册,post携带的数据量比get大,常用于传输大文本的时候。
请求
- 请求行(General)
- Request URL
- Request Method(get/post)
- Status Code(状态:是否正常)
- 请求头(Request Headers 点击 view source)
- 第一块:Request Method + URL(除去域名之前的部分)+协议版本
- 域名Host
- Connection(连接方式):keep-alive(长连接,开始接通,结束断开)/暂时知道这一个
- User-Agent(用户代理):用来模拟浏览器
- Cookie:用来存储用户信息的,每次请求都会被携带上发送给对方服务器。(一般只关注Name和Value就够了)
- 要获取登陆才能访问的页面
- 对方服务器会根据Cookie判断是否是爬虫。
- 请求体
- 携带数据。
http协议之响应
- 响应头
- Set-Cookie:对方服务器通过该字段设置Cookie到本地。
- 响应体
- URL地址对应的响应。