【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇五——Cookie加载与保存

其他 2020-09-23 10:05:48 阅读次数: 0

1. 保存

介绍一个新的类：

MozillaCookieJar()

MozillaCookieJar 是从FileCookieJar 派生而来，他能创建与Mozilla浏览器 cookietxt 兼容的FileCookieJar实例。

from urllib import request
from http.cookiejar import MozillaCookieJar

#保存
# cookiejar = MozillaCookieJar('cookie.txt')
# handler = request.HTTPCookieProcessor(cookiejar)
# opener = request.build_opener(handler)
# resp = opener.open('http://www.httpbin.org/cookies/set/course/abc')
#
# cookiejar.save()

我们能通过这个MozillaCookieJar()类创建一个cookiejar，然后依次创建了handler和opener，我们将我们需要open的网站的request url写入，最后我们将这个获取的cookie保存下来。

可是，我们运行发现这个保存下来的文件并没有我们要的cookie信息，这是为什么呢？

save()函数，这里面可以添加保存的文件名，也可以写在MozillaCookieJar()创建时。

查看一下这个save函数的源码我们发现：

这个save函数的参数 ignore_discard 和ignore_expires默认为false，

ignore_discard = false 表示，cookie被丢弃了就不保存下来，

ignore_expires = false 表示，cookie 过期了就不保存。

扫描二维码关注公众号，回复： 11792497 查看本文章

因此，当我们需要保存一个登录网站的cookie信息时，我们最好将这两个忽略值改成true，这样即使cookie被丢弃和过期，依然能够将我们所要用到的cookie信息保存下来。即下面这行代码：

cookiejar.save(ignore_discard=True,ignore_expires=True)

要注意着两个参数的使用

ignore_discard = true 表示，即使cookies即将被丢弃也要保存下来

ignore_expires = true 表示，如果cookies已经过期也保存并且文件以存在时也将覆盖掉。

2. 加载

加载一个cookie信息是读取加载的内容，使用的是load（），其他部分和保存是类似的。

#加载

cookiejar = MozillaCookieJar('cookie.txt')
cookiejar.load()
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)
resp = opener.open('http://www.httpbin.org/cookies/set/course/abc')
for cookie in cookiejar:
    print(cookie)

猜你喜欢

转载自blog.csdn.net/weixin_44566432/article/details/108559759

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇五——Cookie加载与保存

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇四——cookie原理讲解

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇七——爬虫解析库XPath

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇一——爬虫基础

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇三——网络代理

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十五——数据存储：excel文件处理

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十六——数据存储：MySQL

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇八——爬虫解析库 bs4 BeautifulSoup

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇六——爬虫基本库的使用2 （requests 库）

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇二——爬虫基本库的使用1（urllib）

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十四——数据存储：CSV文件读/写

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十二——正则实战：赶集网租房信息

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十一——正则表达式和re模块

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十——爬取豆瓣电影TOP250（实战）

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇九——搜索文档树find_all 和 select方法

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十三——数据存储：JSON 字符串格式

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十二——正则表达式匹配案例：手机号/邮箱/url/身份证

150讲轻松搞定Python网络爬虫-第五章：爬虫进阶

150讲轻松搞定Python网络爬虫-第四章：数据存储

150讲轻松搞定Python网络爬虫-第三章：数据解析

python网络爬虫五

Python网络爬虫笔记（10）Cookie

Python 网络爬虫篇

Python网络爬虫学习笔记（五）

python之网络爬虫篇

python爬虫笔记（五）网络爬虫之提取——实例：中国大学排名爬虫

python爬虫笔记（五）网络爬虫之提取——实例优化：中国大学排名爬虫

Python网络爬虫——获取cookie的方法

python爬虫学习笔记(五)-URLError与Cookie

Python3网络爬虫教程6——cookie & session（cookie的属性，保存及模块的使用）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)