requests库

python的一个HTTP库（第三方，需要使用pip命令安装），主要用途为发送网络请求，根据服务器的要求不同，可以使用GET、POST、PUT等方式进行请求，并可以对请求头进行伪装，使用代理访问

requesets库中的主要方法

方法	描述
requests.request()	构造一个请求，是支持下面的基础方法（下面方法基于该方法封装）
get()	获取html页面的主要方法
post()	向网页提交POST请求
head()	获取html网页头信息
put()	向网页提交PUT请求
patch()	向网页提交局部修改请求
delete()	向网页提交删除请求

requests.request()方法

requests.request(method,url,**kwargs)

上面get、post、put等方法都是通过request方法得到
在这里插入图片描述

**kwargs控制访问参数（均为可选项）

参数	描述	作用
params	字典或字节序列	作为参数增加到url当中
data	字典、字节序列、文件对象	作为requests的内容（向服务器提交资源时使用）
json	json格式的数据，	作为requests的内容
headers	字典	向url访问时发起的HTTP头字段，可定制HTTP协议头（用于伪装请求）
cookies	字典	Request中的cookie
files	字典类型，传输文件	向某一个链接提交文件
timeout	设置超出时间	在规定的timeout时间内没有返回内容，引发异常（可避免等待时间过长）
proxies	字典格式，	设置访问代理服务器，可增加登录认证，可用于隐藏真实ip地址，防止爬虫的逆追踪

requests库中两个重要对象

response（Response对象）=requests.request(method,url)（Request对象）

response是一个Response对象，它包含服务器返回的所有信息，也包含请求的Request信息

Response对象属性

属性	描述
status_code	http请求的返回状态，200表示连接成功，404表示失败
text	http响应的字符串内容即url对应的页面内容（用于查看网页内容）
encoding	从HTTP的 header中猜测的响应内容编码格式
apparent_encoding	从响应内容中分析出的响应内容编码格式（备选编码方式）
content	http相应内容的二进制形式

爬虫小测
在这里插入图片描述

案例：基于requests的基础爬虫框架

import requests
def get_html(url):
	try:
		response=requests.get(url,timeout=10)
		response.raise_for_status()
		response.encoding=response.apparent_encoding
		return response.text
	except:
		return '连接错误'
if __name__=='__main__':
	url='https://www.sina.com.cn/'	
	print(get_html(url))