模块基础介绍
1. requests模块介绍
1.1 requests模块的作用:发送http请求,获取相应数据
1.2 安装 pip/pip3 install requests
1.3 发送get请求
1.3.1 导入
1.3.2 调用get方法,对目标URL发送请求
强烈推荐读物:
快速上手仔细读:https://2.python-requests.org/zh_CN/latest/user/quickstart.html#id2
高级用法大致读一下:https://2.python-requests.org/zh_CN/latest/user/advanced.html
2. 代理
2.1什么是代理
代理ip是一个ip,指向一个代理服务器,作用是转发请求
2.2 正向代理和反向代理的区别
知不知道最终服务器的地址作为判断标准
正向代理:客户端代理, 代理客户端, 服务端不知道实际发起请求的客户端.
反向代理:服务端代理, 代理服务端, 客户端不知道实际提供服务的服务端.
2.3代理的分类
2.3.1 透明代理
前两个是服务器代理ip地址,最后一个是本机的地址
2.3.2 匿名代理
三个都是服务器的代理地址
2.3.3 高匿代理
一般爬虫都是用高匿,效果最好
3. response.text和response.content的区别
4. 响应对象常用的参数和方法
5. 发送带请求头的请求
5.1 实例
5.2 发送带参数请求两种方法
第一种:url中直接带参数:
第二种:使用params参数:
1. 构建参数字典
2. 发送请求的时候设置参数字典
6. cookie参数的使用
写法有两种,平常写代码的时候使用for,面试的时候尽量使用列表推导式这样能表现自己
第一种:
第二种:
超时参数timeout的使用
因为平常上网时会遇到网络波动的问题,一个请求请求了很久可能都没有结果,在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要执行强制要求,让他必须在一定的时间返回结果否则报错
另外每一个timeout= 1指的是等于1秒