整理一下以前的笔记
1.requests模块 其实python涉及到网络请求的有两个模块:urllib模块 requests模块(简洁高效代替urllib) requests模块:python中原生的基于网络请求的模块,功能很强大,简介便携,效率极高、 作用:模拟浏览器发送请求。 2.如何使用: (requests模块的编码流程) - 指定url(网站的链接) - 发起请求(因为url输入网址按下回车,就可以进入一个页面) - 获取响应数据,,(请求发起成功后就会得到一个响应数据页面,此时就可以获取响应数据) - 持久化存储(将所爬取到的数据进行存储) 环境安装、ok了 我个人用的是pycharm,把request模块下载一下 3.编码实现: 例题:爬取搜狗首页的页面数据
import requests #首先是模块导包
if __name__=="__main__": #主函数运行段
#1.指定url
url='http://www.sogou.com/' #爬取页面的网页链接
#2.发送请求
#get方法会获取一个响应对象,用response接收
response=requests.get(url=url) #(一些基础知识)获取对象
#3.获取响应数据
page_text=response.text #这组字符串page_text,就是我们拿到的响应数据,返回的数据就是这个url页面的源码数据,只不过是以字符串形式返回给了这个page_text
print(page_text)
#4.持久化存储,就是能永久储存的一个操作,存到本地里
with open('./sogou.html','w',encoding='utf-8') as fp: #'./'就是存储到当前目录
fp.write(page_text)
print("爬取数据结束!")