Spider Note1 http协议

声明:该笔记为学习黑马程序员爬虫视频的时候整理的,纯属笔记,无其他意图。

爬虫地址

  • 爬虫地址URL为网页源码Name栏首个文件对应network标签下的Request URL
  • elements的内容与爬虫获取到的URL地址响应不同,因为elements内容包括:URL响应+js+css+图片,而爬虫只包含第一部分。

http协议与https协议

  • http协议(超文本传输协议):
    • 以明文形式传输
    • 效率高但不安全
  • https协议(http+ssl安全套接字层):
    • 传输之前数据先加密,之后解密获取内容
    • 效率低但安全

http协议之请求

get请求与post请求

  • get没有请求体,get请求把数据放到URL地址中;post有请求体,post请求把数据放到请求体中。
    • post常用于登录注册,post携带的数据量比get大,常用于传输大文本的时候。

请求

  • 请求行(General)
    • Request URL
    • Request Method(get/post)
    • Status Code(状态:是否正常)
  • 请求头(Request Headers 点击 view source)
    • 第一块:Request Method + URL(除去域名之前的部分)+协议版本
    • 域名Host
    • Connection(连接方式):keep-alive(长连接,开始接通,结束断开)/暂时知道这一个
    • User-Agent(用户代理):用来模拟浏览器
    • Cookie:用来存储用户信息的,每次请求都会被携带上发送给对方服务器。(一般只关注Name和Value就够了)
      • 要获取登陆才能访问的页面
      • 对方服务器会根据Cookie判断是否是爬虫。
  • 请求体
    • 携带数据。

http协议之响应

  • 响应头
    • Set-Cookie:对方服务器通过该字段设置Cookie到本地。
  • 响应体
    • URL地址对应的响应。

猜你喜欢

转载自blog.csdn.net/l_changyun/article/details/84781809
今日推荐