一、Python的网络请求模块
① urllib模块(较为古老,已经算是被requests模块所取代了)
② requests模块
二、requests模块
Ⅰ,概念
requests模块是Python中原生的一款基于网络请求的模块
Ⅱ,作用
模拟浏览器发送请求
Ⅲ,使用步骤
① 指定url
② 发起请求(requests可以指定get还是post,而常规电脑访问网站一般都是get)
③ 获得响应数据(也就是得到服务器反馈的页面)
④ 持久化存储(也就是将所需要的数据进行存储到数据库或本地中)
Ⅳ,安装
进入指定的环境空间,运行该命令pip install requests
三、实战——爬取百度首页页面数据
import requests
if __name__ == '__main__':
#指定url
url = 'https://www.baidu.com/'
#发起get请求,获得请求对象
response = requests.get(url=url)
#获得响应数据
page = response.text
print(page)
#持久化存储
with open('E:/Jupyter_workspace/study/python/baidu.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print("爬取结束")
运行结果:
其中出现了中文乱码,改一下编码格式encoding即可