首先直接通过管理员运行cmd,然后执行 pip install requests 就可以直接安装Requests库了
有个最基本的语句
r = requests.get(url)
通过requests.get,构造一个向服务器请求资源的Request对象(是python内部生成的)
get() 返回的内容用r来表示,其中r是 Response 对象,它包含所有的服务器资源,我们可以从这个对象中获取所有我们想要的信息。
完整的使用方法是 r = requests.get( url, params = None, **kwargs)
在Response的对象(即r)属性中
——r.status_code HTTP请求的返回状态,200表示连接成功,404或其他表示失败
——r.text HTTP响应内容的字符串形式,即,url 对应的页面内容
——r.encoding 从HTTP header 中猜测的响应内容的编码方式
——r.apparent_encoding 从内容中分析响应内容的变法方式(常用的备选编码方式、更加准确)
——r.content HTTP响应内容的二进制形式
Requests库的异常
——requests.ConnectionError 网络连接错误异常
——requests.HTTPError HTTP错误异常
——requests.URLRequired URL缺失异常
——requests.TooManyRedirects 超过最大重定向次数,产生重定向异常
——requests.ConnectTimeout 连接远程服务器超时异常
——requests.Timeout 请求URL超时,产生异常
爬取网页的通用代码框架
1 def getHTMLText(url): 2 try: 3 r = requests.get(url, timeout = 30) 4 r.raise_for_status() #如果状态不是200,引发HTTPError异常 5 r.encoding = r.apparent_encoding 6 return r.text 7 except: 8 return "产生异常"