Cookie的使用--爬虫 - 代码天地

Cookie的使用--爬虫

其他 2018-08-19 20:25:52 阅读次数: 0

在访问互联网页面时，通过无状态协议（无法维持会话之间的状态）HTTP进行。例如：我们访问需要登录的网站，可以通过两种方式存储登录状态。

（1）Cookie保存会话信息，保存在客户端。（2）Session保存会话信息，保存在服务端。通过服务端给客户端发SessionID等信息，这些信息一般存储在客户端的 Cookie中。然后，用户在访问网站时，从Cookie中读取信息，然后从服务器中的Session中根据这一部分的Cookie信息检索出客户端所有的会话信息，然后进行会话控制。在爬虫的登录中，如果没有Cookie，我们登录成功了一个网页，但如果我们去爬取该网站的其他网页时，仍然会是未登录状态。有了Cookie就会保存登录状态。我们希望登录状态一直保持，python3使用Cookiejar库进行处理：

1）导入Cookie处理模块http.cookiejar

2）使用http.cookiejar.CookieJar()创建CookieJar对象

3）使用HTTPCookieProcessor创建cookie处理器，并以其为参数创建opener对象

4）创建全局默认opener对象

代码示例：

import urllib.request
import urllib.parse
import http.cookiejar
url="http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=L768q"
postdata=urllib.parse.urlencode({"username":"用户名","password":"密码"}).encode('utf-8')
req=urllib.request.Request(url,postdata)
req.add_header('')
#使用http.cookiejar.CookieJar()创建CookieJar对象
cjar=http.cookiejar.CookieJar()
#使用HTTPCookieProcesssor创建cookie处理器，并以其参数构建opener对象
opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
#将opener安装为全局
urllib.request.install_opener(opener)
file=opener.open(req)
data=file.read()
#"wb"为以二进制覆盖写，"ab"为以二进制文件末尾增加
file=open("D:/Python36/myweb/1.html","wb")
file.write(data)
file.close()
url2="http://bbs.chinaunix.net/"
data2=urllib.request.urlopen(url2).read()
fhandle=open("D:/Python36/myweb/2.html","wb")
fhandle=write(data2)
fhandle.close()

我们可以看到使用cookie后1.html和2.html保持了相同的登录状态。

猜你喜欢

转载自blog.csdn.net/SteveForever/article/details/81193327

Python爬虫：Cookie的使用

Python爬虫——使用Cookie

Cookie的使用--爬虫

Python爬虫入门：Cookie的使用

爬虫使用cookie模拟登录

【爬虫】使用selenium设置cookie

python使用cookie爬虫脚本

爬虫使用Selenium生成Cookie

携带cookie爬虫和使用session类处理cookie

Python爬虫入门六之Cookie的使用

爬虫cookiejar模块使用，cookie管理

爬虫二、response、cookie、代理ip使用

Python爬虫系列：四、Cookie的使用

python爬虫使用cookie模拟登录

爬虫使用cookie模拟登入网页

爬虫cookie

【爬虫--cookie】

Java爬虫入门简介（三）——HttpClient保存使用Cookie登录

芝麻HTTP：Python爬虫入门之Cookie的使用

爬虫（11）：使用cookie登陆人人

python爬虫使用Cookie的两种方法

简述cookie和session的作用以及在爬虫中的使用

python爬虫学习5_cookie的获取、保存和使用

Python爬虫使用cookie登录获取推荐帖子

【Python3 爬虫】U04_cookie的使用

python爬虫之使用静态Cookie模拟用户登录

python爬虫--正则表达式与Cookie的使用

Python3网络爬虫教程6——cookie & session（cookie的属性，保存及模块的使用）

python 爬虫（三）cookie和session + 爬虫中使用cookie或session实现登录 + 代理的设置（解决ip被封问题）

scrapy爬虫cookie设置

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)