(一)Requests库入门
(1)HTTP协议
-------------------------------
http://host[:post][path]
host:合法的Internet主机域名或IP地址
port:端口号,缺省为80
path:请求资源的路径
-------------------------------
方法 |
作用 |
GET |
请求获取URL位置的资源 |
HEAD |
请求获取URL位置资源的响应消息报告(头部信息) |
POST |
请求向URL位置的资源后附加新的数据 |
PUT |
请求向URL位置存储一个资源,覆盖原URL位置的资源(更新全覆盖) |
PATCH |
请求局部更新URL位置的资源,即改变该处资源的部分内容(局部覆盖更新) |
DELETE |
请求删除URL位置存储的资源 |
(2)Requests库的7种主要方法
方法 |
作用 |
requests.request(method, url, **kwargs) |
构造一个请求,支撑以下各方法的基础方法 |
requests.get() |
获取HTML网页的主要方法,对应于HTTP的GET |
requests.head() |
获取HTML网页头信息的方法,对应于HTTP的HEAD |
requests.post() |
向HTML网页提交POST请求的方法,对应于HTTP的POST |
requests.put() |
向HTML网页提交PUT请求的方法,对应于HTTP的PUT |
requests.patch() |
向HTTP网页提交局部修改请求,对应于HTTP的PATCH |
requests.delete() |
向HTML页面提交删除请求,对应于HTTP的DELETE |
requests.get()
r = requests.get(url, parms=None, **kwargs)
12个参数 |
参数含义 |
data |
字典、字节序列或文件对象,作为Request的内容 |
json |
JSON格式的数据,作为Request的内容 |
headers |
字典,HTTP定制头 |
cookies |
字典或CookieJar,Request中的cookie |
auth |
元组,支持HTTP认证功能 |
files |
字典类型,传输文件 |
timeout |
设定超时时间,秒为单位 |
proxies |
字典类型,设定访问代理服务器,可增加登陆认证 |
allow_redirects |
Ture/False,默认为True,重定向开关 |
stream |
True/false,默认为True,获取内容立即下载开关 |
verify |
True/False,默认为True,认证SSL证书开关 |
cert |
本地SSL证书路径 |
Response属性 |
属性含义 |
r.status_code |
HTTP请求的返回状态 |
r.text |
HTTP响应内容的字符串形式,即url对应的页面内容 |
r.encoding |
从HTTP header中猜测的响应内容编码方式。如果header中不存在charset,则认为是ISO-8859-1 |
r.apparent_encoding |
从内容中分析出的响应内容编码方式(备选) |
r.content |
HTTP响应内容的二进制形式 |
Requests库异常类型 |
异常含义 |
requests.ConnectionError |
网络连接错误,如DNS查询失败、拒绝连接等 |
requests.HTTPError |
HTTP错误异常 |
requests.URLRequired |
URL缺失异常 |
requests.TooManyRedirects |
超过最大重定向次数,产生重定向异常 |
requests.ConnectTimeout |
连接远程服务器超时异常 |
requests.Timeout |
请求URL超时 |
r.raise_for_status()
(3)status_code
-------------------------------------------
HTTP Status 2xx (成功)
表示成功处理了请求的状态代码;
详细代码说明:
HTTP Status 200 (成功)
-> 服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。
HTTP Status 201 (已创建)
-> 请求成功并且服务器创建了新的资源。
HTTP Status 202 (已接受)
-> 服务器已接受请求,但尚未处理。
HTTP Status 203 (非授权信息)
-> 服务器已成功处理了请求,但返回的信息可能来自另一来源。
HTTP Status 204 (无内容)
-> 服务器成功处理了请求,但没有返回任何内容。
HTTP Status 205 (重置内容)
-> 服务器成功处理了请求,但没有返回任何内容。
HTTP Status 206 (部分内容)
-> 服务器成功处理了部分 GET 请求。
-------------------------------------------
HTTP Status 4xx (请求错误)
这些状态代码表示请求可能出错,妨碍了服务器的处理;
详细代码说明:
HTTP Status 400 (错误请求)
->服务器不理解请求的语法。
HTTP Status 401 (未授权)
->请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应。
HTTP Status 403 (禁止)
-> 服务器拒绝请求。
HTTP Status 404 (未找到)
->服务器找不到请求的网页。
HTTP Status 405 (方法禁用)
->禁用请求中指定的方法。
HTTP Status 406 (不接受)
->无法使用请求的内容特性响应请求的网页。
HTTP Status 407 (需要代理授权)
->此状态代码与 401(未授权)类似,但指定请求者应当授权使用代理。
HTTP Status 408 (请求超时)
->服务器等候请求时发生超时。
HTTP Status 409 (冲突)
->服务器在完成请求时发生冲突。 服务器必须在响应中包含有关冲突的信息。
HTTP Status 410 (已删除)
-> 如果请求的资源已永久删除,服务器就会返回此响应。
HTTP Status 411 (需要有效长度)
->服务器不接受不含有效内容长度标头字段的请求。
HTTP Status 412 (未满足前提条件)
->服务器未满足请求者在请求中设置的其中一个前提条件。
HTTP Status 413 (请求实体过大)
->服务器无法处理请求,因为请求实体过大,超出服务器的处理能力。
HTTP Status 414 (请求的 URI 过长) 请求的 URI(通常为网址)过长,服务器无法处理。
HTTP Status 415 (不支持的媒体类型)
->请求的格式不受请求页面的支持。
HTTP Status 416 (请求范围不符合要求)
->如果页面无法提供请求的范围,则服务器会返回此状态代码。
HTTP Status 417 (未满足期望值)
->服务器未满足”期望”请求标头字段的要求。
-------------------------------------------
HTTP Status 5xx (服务器错误)
这些状态代码表示服务器在尝试处理请求时发生内部错误。 这些错误可能是服务器本身的错误,而不是请求出错;
代码详细及说明:
HTTP Status 500 (服务器内部错误)
->服务器遇到错误,无法完成请求。
HTTP Status 501 (尚未实施)
->服务器不具备完成请求的功能。 例如,服务器无法识别请求方法时可能会返回此代码。
HTTP Status 502 (错误网关)
->服务器作为网关或代理,从上游服务器收到无效响应。
HTTP Status 503 (服务不可用)
-> 服务器目前无法使用(由于超载或停机维护)。 通常,这只是暂时状态。
HTTP Status 504 (网关超时)
->服务器作为网关或代理,但是没有及时从上游服务器收到请求。
HTTP Status 505 (HTTP 版本不受支持)
-> 服务器不支持请求中所用的 HTTP 协议版本。
#爬取网页的通用代码框架#
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText(url))