python网络爬虫requests库请求返回response属性解析

python网络爬虫requests库请求返回response属性解析

首先要想使用requests库,就得先下载这个库,使用快捷键win+r输入cmd打开后,在命令行直接输入以下命令即可:

pip install requests

基本的get请求,用来获取网页的源码的内容

import requests
url = 'http://soft.sxau.edu.cn/info/1013/1942.htm'
r = requests.get(url,timeout=200)

timeout参数用来设置请求访问时间,可有可无

这里的 r 便是访问返回的response对象,接下来将对其的5个基本属性方法来进行基本的解析

  1. .staus_code 方法
print(r.status_code)  #若访问链接成功则返回200,若返回其它则表示返回失败   
  1. .text 方法
print(r.text[:100])   #用来返回响应内容的字符串格式,返回的为列表形式,在实际爬虫编写当中可以用来测试返回的网页源代码是否正确,若网页源代码量巨大可以返回指定数量的代码来进行查看
  1. .enconding 方法
print(r.encoding)    #返回的是网页的编码方式,该编码方式为网页头部信息当中的编码方式,若头部信息中没有规定则返回 ISO-8859-1
  1. .apparent_encoding 方法
print(r.apparent_encoding)  #返回的也是网页的编码方式,与.encoding不同的是,该方法返回的是从返回根据网页内容的解析的编码方式,更加可靠,一般为UTF-8-SIG
  1. .context 方法
print(r.content) #返回HTTP响应的二进制形式,一般用来对爬取并保存图片等二进制形式的信息的使用

下面是一个爬取并保存定向指定网页图片的简单方法(图片后缀为.jpg),用到了.context方法:

#爬取并保存网页上的一张图片到本地当前目录下
url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1580821861516&di=5aebc72b125d7a4ec85d0c6858508579&imgtype=0&src=http%3A%2F%2Fpic2.16pic.com%2F00%2F15%2F80%2F16pic_1580467_b.jpg'
r = requests.get(url)
f_name = 'kebi.jpg'
with open(f_name,'wb') as f:
    f.write(r.content)
发布了2 篇原创文章 · 获赞 5 · 访问量 384

猜你喜欢

转载自blog.csdn.net/zc666ying/article/details/104186607