Python3爬虫编程学习笔记(三)学习urllib库基本用法

urllib库是python内置的网络请求库,不需要另行安装。

1、request.urlopen()函数,url请求函数

urlopen(url=url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None)

.参数说明:

  • url:请求响应的url.

  • data:请求的数据字典(注意:不带data参数的属于get请求,带data参数的属于post请求,主要用于设置自动登录网站)。

  • 返回值:返回的是一个http.client.HTTPResponse对象————类文件句柄对象。

  • read()方法:读取整个见面;readline()读取一行;readlines()分行读取,返回列表。

  • getcode()方法:返回所请求的url页面编码:‘gbk’、'utf-8’等等。

  • 发送最基本的请求,代码示例:

from urllib import request

url = 'http://www.baidu.com/'
# 发出请求
res = request.urlopen(url)
print(res.getcode())  # 查看返回状态码
print(res.geturl())   # 获取url
print(res.read().decode('utf-8'))  # 打印获取的整个网页,解码后不会有乱码

2、request.urlretrieve()函数,将指定网站源代码以文件形式保存到本地

  urlretrieve(url, filename=None, reporthook=None, data=None)

代码示例:

from urllib import request

# 直接将百度首页源代码保存到本地文件'baidu.html'
request.urlretrieve('http://www.baidu.com/','baidu.html')

3、parse.urlencode()函数,把字典数据进行编码,不指定则默认使用‘utf-8’

 parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None,quote_via=quote_plus)

代码示例:

# 需要导入parse模块,返回经过编码的字符串
from urllib import parse
# 编码,默认‘utf-8’
enc = parse.urlencode({'name':'张三','age':18})  # 'name=%E5%BC%A0%E4%B8%89&age=18'
print(enc)

4、parse.parse_qs()函数,将进行过编码的数据解码,以识别(默认encoding=‘utf-8’)

parse.parse_qsparse_qs(qs, keep_blank_values=False, strict_parsing=False,
             encoding='utf-8', errors='replace', max_num_fields=None)

代码示例:

# 以默认编码进行解码,返回一个字典
qs = parse.parse_qs('wd=%E5%88%98%E5%BE%B7%E5%8D%8E')  # ‘wd’:‘刘德华’
print(qs)

5、pares.urlparse()、urlsplit()函数,根据url的参数分割url各个组成部分,返回一个字典

parse.urlparse(url, scheme='', allow_fragments=True)
parse.urlsplit(url, scheme='', allow_fragments=True)

代码示例:

from urllib import parse

"""两个函数基本上是一样的效果,二者唯一区别:urlparse()有params属性,而urlsplit()没有"""

url = 'http://www.baidu.com/s;hello?wd=pytthon&username=abc&pwd=123#1'

# 有params属性
r = parse.urlparse(url)
print('scheme:', r.scheme)
print('netloc:', r.netloc)
print('path:', r.path)
print('params:', r.params)
print('query=string:', r.query)
print('fragment:', r.fragment)

print("-"*30)

# 没有params属性
r = parse.urlsplit(url)
print('scheme:', r.scheme)
print('netloc:', r.netloc)
print('path:', r.path)
# print('params:',r.params)
print('query-string:', r.query)
print('fragment:', r.fragment)

6、request.Request类

在需要传递headers等参数时使用。

def __init__(self, url, data=None, headers={},origin_req_host=None, unverifiable=False,method=None)
  • 老师说最基本的反爬手段:是在请求时需要增加请求头headers

代码示例:

"""调用Request类,设置请求头"""
from urllib import request

headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
req = request.Request('http://httpbin.org/get',headers=headers)
resp = request.urlopen(req)
print('Status_Code:',resp.getcode())

7、设置代理IP

通过ProxyHandler()(反爬虫的第二大招,通常也是最好用的)

handler = request.ProxyHandler({'http:','223.241.78.43:9999'})
  • 大多数的网站会在某一段时间,去检测某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。

代码示例:

# -*- coding: utf-8 -*-

"""设置代理IP"""
from urllib import request
# import random

headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
# 设置代理
'''
如果代理IP足够多,可以设置一个代理池“list列表”,每次随机选择一个代理
 proxy_list = [
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"}
]
proxy = randon.choice(proxy_list)
'''
proxy = {'https:','223.241.78.43:9999'}  # 单一代理也容易被封

# 付费代理的写法
# proxy = request.ProxyHandler({"http":"账号:密码@143.226.164.130:16816"}) 
# 创建代理对象
handler = request.ProxyHandler(proxy)
# 创建opener对象
opener = request.build_opener(handler)
# 使用opener.open()发送请求
resp = opener.open('https://httpbin.org/ip', headers=headers)
print(resp.read())

8、利用cookie自动登录网站

什么是cookie?当我们使用自己的电脑通过浏览器进行访问网页的时候,服务器就会生成一个证书并返回给浏览器(客户端)并写入本地电脑,这个证书就是cookie(包含登录网站的用户名、密码、状态等信息)。一般来说cookie都是服务器端写入客户端的纯文本文件,一般不会超过4kb,过期的Cookie会自动删除。

访问网站时,服务器首先根据浏览器的编号生成一个cookie返回给客户端。客户端下次再访问时就会将自己本地的cookie加上url访问地址一同给服务器。服务器读出cookie内容,以此来辨别用户的状态。

相应参数说明:

  name:    Cookie变量名
  value:   Cookie变量值
  expires: 该Cookie过期时间(FILETIME格式)的高位整数
  path:    cookie作用路径
  domain:  该Cookie变量所属域,形如csdn.net/、blog.csdn.net/或blog.csdn.net/lixianlin/
  secure:   是否在https协议下起作用

在爬虫编程中,cookie是加入到请求头中,一并向服务器发送请求,利用cookie模拟登录,示例如下:

form urllib import request

url = 'http://www.renren.com/880151247/profile'   # 人人网 大鹏董成鹏 个人主页
# cookie需要放到请求头中
headers = {
        'Cookie': 'anonymid=k81ctt22erz7qr; depovince=GW; _r01_=1; ick_login=1d2222ba-1313-4f3b-8954-82806d728bd3; taihe_bi_sdk_uid=b321fdb89e56adcc9e52edd47867dc37; taihe_bi_sdk_session=0683dd765bd4fa8f1272564fe8beb47a; t=23809fb84a8261158dd6fab2f12349891; societyguester=23809fb84a8261158dd6fab2f12349891; id=974056281; xnsid=3c22418; jebecookies=6b003d8c-d464-495d-8aba-cb88e3f93a63|||||; ver=7.0; loginfrom=null',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
    }
# 使用urllib.request.Request类
req = request.Request(url, headers=headers)
opener = requests.build_opener(req)
resp = opener.open(req)
# 将网页源代码保存到本地硬盘
with open('renren.html','w',encoding='utf-8') as f:
    f.write(resp.read().decode('utf-8')

9、使用http.cookieJar模块处理Cookie模拟登录网站

该模块主要的类有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar四个类:

1、CookieJar:管理HTTP Cookie值、存储HTTP请求生成的cookie,向发出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。

2、FileCookieJar(filename,delayload=None,policy=None):从CookieJar派生出来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中。filename是存储的文件名; delayload为True时支持延迟访问文件,只有在需要时才读取文件或在文件中存储数据。

3、MozillaCookieJar(filename,delayload=None,policy=None):从FileCookieJar中派生出来,创建与Mozilla(火狐浏览器)cookies.txt兼容的FileCookieJar实例。

4、LWPCookieJar:(filename,delayload=None,policy=None):从FileCookieJar中派生出来,创建与libwww.per标准的Sert-Cookie3格式兼容的FileCookieJar实例,标准尚未完善,一般很少使用。

下面使用CookieJar、MozillaCookieJar类练习代码示例:

# -*- coding: utf-8 -*-

"""CookieJar对象,置于内存中,程序执行完毕即释放"""

from urllib import request
from http.cookiejar import CookieJar

'''
1. 登录
1.1 创建一个CookieJar对象
1.2 使用cookiejar创建一个HTTPCookieProcess对象
1.1.3 以1.2对象创建一个opener
1.1.4 使用opener发送用户名和密码
2. 访问大鹏个人主页
'''

headers = {
        'Cookie': 'anonymid=k81ctt22erz7qr; depovince=GW; _r01_=1; ick_login=1d2222ba-1313-4f3b-8954-82806d728bd3; taihe_bi_sdk_uid=b321fdb89e56adcc9e52edd47867dc37; taihe_bi_sdk_session=0683dd765bd4fa8f1272564fe8beb47a; t=23809fb84a8261158dd6fab2f12349891; societyguester=23809fb84a8261158dd6fab2f12349891; id=974056281; xnsid=3c22418; jebecookies=6b003d8c-d464-495d-8aba-cb88e3f93a63|||||; ver=7.0; loginfrom=null',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

def get_opener():
    """创建CookieJar对象、opener"""
    cookiejar = CookieJar()
    handler = request.HTTPCookieProcessor(cookiejar)
    opener = reques.build_opener(handler)
    return opener

def login_renren(opener):
    """登录人人网"""
    login_url = 'http://www.renren.com/Plogin.do'
    data = {
        'email':'[email protected]',
        'password':'pythonspider'
    }
    req = request.Request(login_url, data=parse.urlencode(data).encode('utf-8'), headers=headers)
    opener.open(req)

def visit_profile(opener):
    """访问大鹏个人主页,能访问则表示模拟登录成功"""
    url = 'http://www.renren.com/880151247/profile'
    req = request.Request(url, headers=headers)
    resp = opener.open(req)
    with open('renren.html', 'w', encoding='utf-8') as f:
        f.write(resp.read().decode('utf-8'))

if __name__ == '__main__':
    opener = get_opener()
    def get_opener(opener)
    visit_profile(opener)

将cookie保存到本地:

# -*- coding: utf-8 -*-

"""MozillaCookieJar对象,将cookies保存到本地文件,便于以后重用"""

from urllib import request
from http.cookiejar import MozillaCookieJar

headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
login_url = 'https://httpbin.org/cookies/set?course=pythoner'

cookiejar = MoaillaCookieJar('cookie_baidu.txt') # cookie是一个纯文本文件
# cookiejar.load(ignore_discard=True, ignore_expires=True)  # 加载本地cookie文件
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.buile_opener(handler)

req = request.Request(url, headers=headers)
resp = opener.open(req)

# 保存cookie信息,ignore_discard设置cookie是否过期,
# 由于上面创建CookieJar对象时指定了文件名参数,在此无需写出
cookiejar.save(ignore_discard=True, ignore_expires=True)

 


说明:本学习笔记根据晚上学习B站乐林贝斯发布的视频《Python爬虫】新手强烈推荐:Python爬虫教程,学爬虫这一套就够了》,白天学习CSDN博主【[数挖小飞飞]的《Python网络爬虫数据采集实战》博客记录,非常感谢!


菜鸟学习笔记,水平不够难免记错,如有不当之处,敬请指正,感激不尽!

Python3爬虫编程学习笔记(一)缘由
Python3爬虫编程学习笔记(二)爬虫原理

发布了3 篇原创文章 · 获赞 2 · 访问量 68

猜你喜欢

转载自blog.csdn.net/weixin_44510363/article/details/105037526
今日推荐