（一）Requests库入门

(1)HTTP协议

#HTTP 超文本传输协议
#HTTP是一种基于“请求与响应”模式的、无状态的应用层协议
#HTTP采用URL作为定位网络资源的标识，一个URL对应一个数据资源
-------------------------------
http：//host[:post][path]
host:合法的Internet主机域名或IP地址
port：端口号，缺省为80
path：请求资源的路径
-------------------------------

方法	作用
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告（头部信息）
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源（更新全覆盖）
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容（局部覆盖更新）
DELETE	请求删除URL位置存储的资源

(2)Requests库的7种主要方法

方法	作用
requests.request(method, url, **kwargs)	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTTP网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

requests.get()
#获取HTML网页的主要方法，对应于HTTP的GET
r = requests.get(url, parms=None, **kwargs)
#url		:拟获取页面的url链接
#params		：url中的额外参数，字典或字节流格式（可选）
#**kwargs	：12个控制访问的参数，均为可选项

12个参数	参数含义
data	字典、字节序列或文件对象，作为Request的内容
json	JSON格式的数据，作为Request的内容
headers	字典，HTTP定制头
cookies	字典或CookieJar，Request中的cookie
auth	元组，支持HTTP认证功能
files	字典类型，传输文件
timeout	设定超时时间，秒为单位
proxies	字典类型，设定访问代理服务器，可增加登陆认证
allow_redirects	Ture/False，默认为True，重定向开关
stream	True/false，默认为True，获取内容立即下载开关
verify	True/False，默认为True，认证SSL证书开关
cert	本地SSL证书路径

#构造一个向服务器请求资源的Request对象:requests.get()
#返回一个包含服务器资源的Response对象:r

Response属性	属性含义
r.status_code	HTTP请求的返回状态
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式。如果header中不存在charset，则认为是ISO-8859-1
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选）
r.content	HTTP响应内容的二进制形式

Requests库异常类型	异常含义
requests.ConnectionError	网络连接错误，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时

r.raise_for_status()
#如果不是200，产生异常requests.HTTPError

(3)status_code

#HTTP: Status 200 – 服务器成功返回网页
#HTTP: Status 404 – 请求的网页不存在
#HTTP: Status 503 – 服务不可用
-------------------------------------------
HTTP Status 2xx  (成功)
表示成功处理了请求的状态代码;

详细代码说明：
HTTP Status 200 (成功)
-> 服务器已成功处理了请求。 通常，这表示服务器提供了请求的网页。
HTTP Status 201 (已创建)
-> 请求成功并且服务器创建了新的资源。
HTTP Status 202 (已接受)
-> 服务器已接受请求，但尚未处理。
HTTP Status 203 (非授权信息)
-> 服务器已成功处理了请求，但返回的信息可能来自另一来源。
HTTP Status 204 (无内容)
-> 服务器成功处理了请求，但没有返回任何内容。
HTTP Status 205 (重置内容)
-> 服务器成功处理了请求，但没有返回任何内容。
HTTP Status 206 (部分内容)
-> 服务器成功处理了部分 GET 请求。
-------------------------------------------
HTTP Status 4xx (请求错误)
这些状态代码表示请求可能出错，妨碍了服务器的处理;

详细代码说明:
HTTP Status 400 （错误请求） 
->服务器不理解请求的语法。
HTTP Status 401 （未授权） 
->请求要求身份验证。 对于需要登录的网页，服务器可能返回此响应。
HTTP Status 403 （禁止）
-> 服务器拒绝请求。
HTTP Status 404 （未找到） 
->服务器找不到请求的网页。
HTTP Status 405 （方法禁用） 
->禁用请求中指定的方法。
HTTP Status 406 （不接受） 
->无法使用请求的内容特性响应请求的网页。
HTTP Status 407 （需要代理授权） 
->此状态代码与 401（未授权）类似，但指定请求者应当授权使用代理。
HTTP Status 408 （请求超时） 
->服务器等候请求时发生超时。
HTTP Status 409 （冲突） 
->服务器在完成请求时发生冲突。 服务器必须在响应中包含有关冲突的信息。
HTTP Status 410 （已删除）
-> 如果请求的资源已永久删除，服务器就会返回此响应。
HTTP Status 411 （需要有效长度） 
->服务器不接受不含有效内容长度标头字段的请求。
HTTP Status 412 （未满足前提条件） 
->服务器未满足请求者在请求中设置的其中一个前提条件。
HTTP Status 413 （请求实体过大） 
->服务器无法处理请求，因为请求实体过大，超出服务器的处理能力。
HTTP Status 414 （请求的 URI 过长） 请求的 URI（通常为网址）过长，服务器无法处理。
HTTP Status 415 （不支持的媒体类型） 
->请求的格式不受请求页面的支持。
HTTP Status 416 （请求范围不符合要求） 
->如果页面无法提供请求的范围，则服务器会返回此状态代码。
HTTP Status 417 （未满足期望值） 
->服务器未满足”期望”请求标头字段的要求。
-------------------------------------------
HTTP Status 5xx （服务器错误）
这些状态代码表示服务器在尝试处理请求时发生内部错误。 这些错误可能是服务器本身的错误，而不是请求出错；

代码详细及说明:
HTTP Status 500 （服务器内部错误） 
->服务器遇到错误，无法完成请求。
HTTP Status 501 （尚未实施） 
->服务器不具备完成请求的功能。 例如，服务器无法识别请求方法时可能会返回此代码。
HTTP Status 502 （错误网关） 
->服务器作为网关或代理，从上游服务器收到无效响应。
HTTP Status 503 （服务不可用）
-> 服务器目前无法使用（由于超载或停机维护）。 通常，这只是暂时状态。
HTTP Status 504 （网关超时） 
->服务器作为网关或代理，但是没有及时从上游服务器收到请求。
HTTP Status 505 （HTTP 版本不受支持）
-> 服务器不支持请求中所用的 HTTP 协议版本。

#爬取网页的通用代码框架#

#爬取网页的通用代码框架
import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()	#如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
    
if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

浩然丶

发布了10 篇原创文章 · 获赞 1 · 访问量 141

私信关注

Python爬虫学习（一）Requests库入门

（一）Requests库入门

(1)HTTP协议

(2)Requests库的7种主要方法

(3)status_code

#爬取网页的通用代码框架#

猜你喜欢