Python爬虫：Cookie的使用

1、HTTP协议是一个无状态协议，通过Cookie保存会话信息，从而判断目前的会话状态，比如可以判断是否已经登录。

当我们用urlopen来请求一个URL时，都是使用的默认opener；

当需要用到Cookie时，要创建一个更一般的opener；

2、cookielib模块主要是提供可存储的Cookie对象，以便于与urllib2模块配合使用来访问Internet资源

该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

# Cookie登录
import urllib.requset
import urllib.parse
import http.cookiejar
# 这里需要找到登录的真实url
url = "http://www.xxx.yyy"
url2 = "http://www.xxx.yyy.zzz"
postdata = urllib.parse.urlencode({
	# username和password均为登录页面html表单上的name属性值
	"username":"aaaaa"
	"password":"bbbbb"
	}).encode("utf-8")
req = urllib.requset.Request(url,postdata)
req.add_header("User-Agent","user-agent")
# 使用http.cookiejar.CookieJar()创建CookieJar对象
cjar = http.cookiejar.CookieJar()
# 使用HTTPCookieProcessor创建cookie处理器，并以其为参数构造opener对象
opener = urllib.requset.build_opener(urllib.requset.HTTPCookieProcessor(cjar))
# 将opener创建为全局默认的opener对象，使得在访问统一网站不同网页时cookie依然有效
urllib.requset.install_opener(opener)
data = opener.open(req).read()
# 在使用urlopen时，会使用安装的opener对象
data2 = urllib.request.urlopen(url2).read()

保存Cookie到文件

import cookielib
import urllib2

#设置保存cookie的文件，同级目录下的cookie.txt
file = 'cookies.txt'
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件
cookie = cookielib.MozillaCookieJar(file)
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)
#创建一个请求，原理同urllib2的urlopen
response = opener.open("http://www.xxx.com")
#保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)
# ignore_discard的意思是即使cookies将被丢弃也将它保存下来，
# ignore_expires的意思是如果在该文件中 cookies已经存在，则覆盖原文件写入

从文件中获取Cookie并访问

# 从文件中获取Cookie并访问
import cookielib
import urllib2

#创建MozillaCookieJar实例对象
cookie = cookielib.MozillaCookieJar()
#从文件中读取cookie内容到变量
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
#创建请求的request
req = urllib2.Request("http://www.xxx.com")
#利用urllib2的build_opener方法创建一个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open(req)
print response.read()

利用Cookie模拟网站登录

# 利用cookie模拟网站登录
# 创建一个带有Cookie的opener，在访问时保存Cookie，进行其他网站访问
import urllib
import urllib2
import cookielib

file = 'cookie.txt'
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件
cookie = cookielib.MozillaCookieJar(file)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({
			'user':'xxxxx',
			'pwd':'yyyyy'
		})
#登录网站的URL
loginUrl = 'http://aaa.bbbb'
#模拟登录，并把cookie保存到变量
result = opener.open(loginUrl,postdata)
#保存cookie到cookie.txt中
cookie.save(ignore_discard=True, ignore_expires=True)
#利用cookie请求访问另一个网址
gradeUrl = 'http://ccc.ddd'
result = opener.open(gradeUrl)
print result.read()

Python爬虫：Cookie的使用

猜你喜欢