requests

在request中，所有的请求都可以用以请求名称命名的方法来调用：

r = requests.get('https://www.baidu.com/')
r = requests.post('http://httpbin.org/post')
r = requests.put('http://httpbin.org/put')
r = requests.delete('http://httpbin.org/delete')
r = requests.head('http://httpbin.org/get')
r = requests.options('http://httpbin.org/get')

1、GET请求

利用params参数，构造字典来传递GET参数。请求的链接自动被构造成了|http://httpbin.org/get?age=22&name=germey|：

import requests
 
data = {
    'name': 'germey',
    'age': 22
}
r = requests.get("http://httpbin.org/get", params=data)
print(r.text)

另外，网页的返回类型实际上是str类型，但是它很特殊，是JSON格式的。所以，如果想直接解析返回结果，得到一个字典格式的话，可以直接调用json()方法：

import requests
 
r = requests.get("http://httpbin.org/get")
print(type(r.text))
print(r.json())
print(type(r.json()))

#运行结果：
<class 'str'>
{'headers': {'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.10.0'}, 'url': 'http://httpbin.org/get', 'args': {}, 'origin': '182.33.248.131'}
<class 'dict'>

抓取网页

以爬取知乎为例，读取页面内容，并用正则表达式匹配相应内容。注意爬去知乎必须要修改User-Agent，否则知乎拒绝访问。

import requests
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers=headers)
pattern = re.compile('explore-feed.*?question_link.*?>(.*?)</a>', re.S)
titles = re.findall(pattern, r.text)
print(titles)

抓取二进制数据

图片、视频、音频等都是以二进制数据存储的。要抓去它们必须拿到它们的二进制码。
下面以抓取GitHub图标为例：

import requests

r = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

#第一行会输出乱码，因为text()输出字符串，而抓取的是图片数据
#第二行会输出bytes数据，content()输出bytes数据

下面的代码读取图片，在本地打开一个favicon.ico的文件，wb表示以bytes格式写入。然后将图片的字节流写入文件，该文件打开后就是抓取到的图片。

import requests

r = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:
    f.write(r.content)

2、POST请求

import requests

data = {'name': 'germey', 'age': '22'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

3、响应

import requests

r = requests.get('http://www.jianshu.com')
print(type(r.status_code), r.status_code)
print(type(r.headers), r.headers)
print(type(r.cookies), r.cookies)
print(type(r.url), r.url)
print(type(r.history), r.history)

下面的代码中，状态码200可以用requests.codes.ok来比对；404可以用requests.codes.not_found来比对等等：

import requests

r = requests.get('http://www.jianshu.com')
exit() if not r.status_code == requests.codes.ok else print('Request Successfully')

4、高级用法

文件上传

import requests

files = {'file': open('favicon.ico', 'rb')}
r = requests.post("http://httpbin.org/post", files=files)
print(r.text)

Cookies

代码中，items()将字典中的每一对键值转化为元组，返回一个多个元组组成的列表：

import requests

r = requests.get("https://www.baidu.com")
print(r.cookies)
for key, value in r.cookies.items():
    print(key + '=' + value)

会话维持

设想这样一个场景，第一个请求利用post()方法登录了某个网站，第二次想获取成功登录后的自己的个人信息，你又用了一次get()方法去请求个人信息页面。实际上，这相当于打开了两个浏览器，是两个完全不相关的会话，能成功获取个人信息吗？那当然不能。
利用Session便可以实现这个功能，维持同一个会话。

import requests

s = requests.Session()

#设置了浏览器的cookie
s.get('http://httpbin.org/cookies/set/number/123456789')

#可以直接获取到cookie，因为是在同一个会话中
r = s.get('http://httpbin.org/cookies')
print(r.text)

SSL证书验证

对于证书没有被官方CA机构信任的网站，直接访问会报错；
把verify参数设置为False即可：

import requests
 
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

代理设置

import requests

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}

requests.get("https://www.taobao.com", proxies=proxies)

若代理需要使用HTTP Basic Auth，可以使用类似|http://user:password@host:port|这样的语法来设置代理，示例如下：

import requests

proxies = {
    "http": "http://user:[email protected]:3128/",
}
requests.get("https://www.taobao.com", proxies=proxies)

除了基本的HTTP代理外，requests还支持SOCKS协议的代理。
首先，需要安装socks这个库：

pip3 install 'requests[socks]'

然后就可以使用SOCKS协议代理了，示例如下：

import requests

proxies = {
    'http': 'socks5://user:password@host:port',
    'https': 'socks5://user:password@host:port'
}
requests.get("https://www.taobao.com", proxies=proxies)

超时设置

mport requests

r = requests.get("https://www.taobao.com", timeout = 1)
print(r.status_code)

身份认证

import requests
 
r = requests.get('http://localhost:5000', auth=('username', 'password'))
print(r.status_code)

#auth=()实际上是调用了 requests.auth.HTTPBasicAuth 库中的 auth=HTTPBasicAuth('username', 'password')

Prepared Request

在requests中也可以将请求表示为数据结构，这个数据结构称为Prepared Request
这里我们引入了Request，然后用url、data和headers参数构造了一个Request对象，这时需要再调用Session的prepare_request()方法将其转换为一个Prepared Request对象，然后调用send()方法发送即可：

from requests import Request, Session

url = 'http://httpbin.org/post'
data = {
    'name': 'germey'
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
s = Session()
req = Request('POST', url, data=data, headers=headers)
prepped = s.prepare_request(req)
r = s.send(prepped)
print(r.text)

有了Request这个对象，就可以将请求当作独立的对象来看待，这样在进行队列调度时会非常方便。

Alst0n

发布了38 篇原创文章 · 获赞 18 · 访问量 6076

私信关注

Python3爬虫笔记 -- requests

requests

1、GET请求

抓取网页

抓取二进制数据

2、POST请求

3、响应

4、高级用法

文件上传

Cookies

会话维持

SSL证书验证

代理设置

超时设置

身份认证

Prepared Request

猜你喜欢