python爬虫编码与解码

编码原理及区别

第一阶段：编码的由来：大家都知道计算机的母语是英语，英语是由26个字母组成的。所以最初的计算机字符编码是通过ASCII来编码的，也是现今最通用的单字节编码系统，使用7位二进制数来表示所有的字母、数字、标点符号及一些特殊控制字符，作为美国编码标准来使用。
第二阶段：由于计算机的不断普及，计算机进入了不同的国家和地区。很快表现出了众多的水土不服的症状。比如：中国人就表示不服，就不能让计算机说中文吗？但是ASCII编码用上浑身解数256个字符也不够中文用啊。
因此后来出现了Unicode编码。Unicode编码通常由两个字节组成，共表示256*256个字符，即所谓的UCS-2。某些生僻的字还会用到四个字节，即UCS-4。Unicode向下兼容ASCII。
第三阶段：在Unicode中，很快，美国人不高兴了，原本用一个字节就够了，现在却要用两个字节来表示，非常浪费存储空间和传输速度。人们再发挥聪明才智，于是出现了UTF-8编码。主要针对空间浪费的问题。UTF-8从英文字母的一个字节，到中文的通常的三个字节，再到某些生僻字的六个字节。解决了空间浪费的问题，并且兼容老大哥ASCII编码。这样一些老古董软件在UTF-8编码中可以继续工作了。
另外需要注意的是汉字在Unicode编码和UTF-8编码中通常是不同的。
第四阶段：同样我们祖国也制定了自己的一套标准。那就是GB2312和GBK。但是大多数还是直接用的UTF-8。UTF-8/UTF-16等是对Unicode进行了编码，是其一种实现方式。
另外还有ISO-8859-1，ISO-8859-1是单字节编码，向下兼容ASCII，是许多欧洲国家使用的编码标准。
Unicode是国际通用的编码标准，可以表示全世界的字符，但其字符集也是最复杂、占用空间最大的。开发者可以根据需要进行选择编码方式。

编码与解码

decode：编码
encode：解码
如下图：
在这里插入图片描述
可以看出Unicode充当的一个翻译官的角色，（差不多所有的编码方式都可转化为Unicode）

对抓取的内容进行持久化存储

只需要在获取数据后进行存储

import requests

if __name__ == "__main__":
    # 1.指定url
    url = "https://www.sogou.com/"
    # 2.发起请求
    # get方法会返回一个响应对象
    print(123)
    response = requests.get(url=url)
    # 3.获取数据,text返回字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # 4.持久化存储
    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)

    print("爬取数据结束！！！！")

Python re模块用法详解

在 Python 爬虫过程中，实现网页元素解析的方法有很多，正则解析只是其中之一，常见的还有 BeautifulSoup 和 lxml，它们都支持网页 HTML 元素的解析操作。如何使用 re 正则解析模块实现网页信息的提取。

注意：您应该提前掌握 Python re 模块的常用方法。

re模块常用方法

1. re.compile()

该方法用来生成正则表达式对象，其语法格式如下：

regex=re.compile(pattern,flags=0)

参数说明：

pattern：正则表达式对象。
flags：代表功能标志位，扩展正则表达式的匹配。

2.re.findall()

根据正则表达式匹配目标字符串内容。

re.findall(pattern,string,flags=0)

该函数的返回值是匹配到的内容列表，如果正则表达式有子组，则只能获取到子组对应的内容。参数说明如下：

pattern：正则表达式对象。
string：目标字符串
flags：代表功能标志位，扩展正则表达式的匹配。

3. regex.findall()

该函数根据正则表达式对象匹配目标字符串内容。其语法格式如下：

regex.findall(string,pos,endpos)

参数说明：

string 目标字符串。
pos 截取目标字符串的开始匹配位置。
endpos 截取目标字符串的结束匹配位置。

4.re.split()

该函数使用正则表达式匹配内容，切割目标字符串。返回值是切割后的内容列表。参数说明：

re.split(pattern,string,flags = 0)

参数说明：

pattern：正则表达式。
string：目标字符串。
flags：功能标志位,扩展正则表达式的匹配。

5. re.sub()

该函数使用一个字符串替换正则表达式匹配到的内容。返回值是替换后的字符串。其语法格式如下：

re.sub(pattern,replace,string,max,flags = 0)

其参数说明：

pattern：正则表达式。
replace：替换的字符串。
string：目标字符串。
max：最多替换几处，默认替换全部，
flags：功能标志位,扩展正则表达式的匹配。

5. re.search()

匹配目标字符串第一个符合的内容，返回值为匹配的对象。语法格式如下：

re.search(pattern,string,flags=0)

参数说明：

pattern：正则表达式
string：目标字符串

flags功能标志位

功能标志位的作用是扩展正则表达的匹配功能。常用的 flag 如下所示：
在这里插入图片描述

注意：可以同时使用福多个功能标志位，比如 flags=re.I|re.S。

下面使用贪婪和非贪婪两种模式来匹配 HTML 元素，分别，如下所示：

import re
html="""
<div><p>www.baidu.com</p></div>
<div><p>学习</p></div>
"""
#贪婪匹配，re.S可以匹配换行符
#创建正则表达式对象
pattern=re.compile('<div><p>.*</p></div>',re.S)
#匹配HTMLX元素，提取信息
re_list=pattern.findall(html)
print(re_list)
#非贪婪模式匹配，re.S可以匹配换行符
pattern=re.compile('<div><p>.*?</p></div>',re.S)
re_list=pattern.findall(html)
print(re_list)

输出结果：

['<div><p>www.biancheng.net</p></div>\n<div><p>编程帮</p></div>']
['<div><p>www.biancheng.net</p></div>', '<div><p>编程帮</p></div>']

从上述输出结果可以得出非贪婪模式比适合提取 HTML 信息。

正则表达式分组

通过正则表达式分组可以从匹配的信息中提取出想要的信息。示例演示：

#正则表达式分组
website="百度 www.baodu.com"
#提取所有信息
#注意此时正则表达式的 "." 需要转义因此使用 \.
pattern_1=re.compile('\w+\s+\w+\.\w+\.\w+')
print(pattern_1.findall(website))
#提取匹配信息的第一项
pattern_2=re.compile('(\w+)\s+\w+\.\w+\.\w+')
print(pattern_2.findall(website))
#有两个及以上的()则以元组形式显示
pattern_3=re.compile('(\w+)\s+(\w+\.\w+\.\w+)')
print(pattern_3.findall(website))

输出结果：

['百度 www.baodu.com']
['百度']
[('百度', '百度 www.baodu.com')]

网页信息提取

实战演练：从下面的 HTML 代码中使用 re 模块提取出两部影片的名称和主演信息。

html="""
<div class="movie-item-info">
<p class="name">
<a title="你好，李焕英">你好，李焕英</a>
</p>
<p class="star">
主演：贾玲,张小斐,沈腾
</p>    
</div>
<div class="movie-item-info">
<p class="name">
<a title="刺杀，小说家">刺杀，小说家</a>
</p>
<p class="star">
主演：雷佳音,杨幂,董子健,于和伟
</p>    
</div> 
"""
# 寻找HTML规律，书写正则表达式，使用正则表达式分组提取信息
pattern=re.compile(r'<div.*?<a title="(.*?)".*?star">(.*?)</p.*?div>',re.S)
r_list=pattern.findall(html)
print(r_list)
# 整理数据格式并输出
if  r_list:
    for r_info in  r_list:
        print("影片名称：",r_info[0])
        print("影片主演：",r_info[1].strip())
        print(20*"*")

输出结果如下：

[('你好，李焕英', '\n主演：贾玲,张小斐,沈腾\n'), ('刺杀，小说家', '\n主演：雷佳音,杨幂,董子健,于和伟\n')]

影片名称： 你好，李焕英
影片主演： 主演：贾玲,张小斐,沈腾
********************
影片名称： 刺杀，小说家
影片主演： 主演：雷佳音,杨幂,董子健,于和伟
********************

python爬虫学习(五)

python爬虫编码与解码

编码原理及区别

编码与解码

对抓取的内容进行持久化存储

Python re模块用法详解

re模块常用方法

1. re.compile()

2.re.findall()

3. regex.findall()

4.re.split()

5. re.sub()

5. re.search()

flags功能标志位

正则表达式分组

网页信息提取

目录

python爬虫编码与解码

编码原理及区别

编码与解码

对抓取的内容进行持久化存储

Python re模块用法详解

re模块常用方法

1. re.compile()

2.re.findall()

3. regex.findall()

4.re.split()

5. re.sub()

5. re.search()

flags功能标志位

正则表达式分组

网页信息提取

猜你喜欢

目录

热门文章