学习路径
北京理工大学的国家精品课程(中国大学MOOC)
Python网络爬虫与信息提取
requests库的安装
win平台:以管理员身份运行”cmd“,执行
pip install requests
运行环境:Python 3.6.8(IDLE)
测试Requests库是否安装成功
status_code —— 状态码
乱码了,这个是因为编码格式不对造成的,但你的requests库安装成功了,恭喜你。
Requests库有7个主要方法
这些概念不太想记,自己也不是很懂
- get()方法
上面那段程序已经用过这个方法了,这个就是发送一个请求,得到一个响应。具体看图
顺便了解了一下url,就是万维网的地址标识(单指此处)
这个截个图,以后应该会用到
Requests库的2个重要对象
- Request
- Response(包含爬虫返回的内容)
Response对象的属性
乱码问题解决
理解Response的编码
理解Requests库的异常
(这个图表备自己以后翻阅记忆)
爬取网页的通用代码框架
网络连接有风险,异常处理很重要
#爬取网页的通用代码框架
import requests
import time
def getHTMLText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText(url))