base64模块在python2与python3中的区别

举一个例子：It’s 知乎日报

你看到的unicode字符集是这样的编码表：

I 0049
t 0074
' 0027
s 0073
  0020
知 77e5
乎 4e4e
日 65e5
报 62a5

每一个字符对应一个十六进制数字。

计算机只懂二进制，因此，严格按照unicode的方式(UCS-2)，应该这样存储：

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
  00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
报 01100010 10100101

这个字符串总共占用了18个字节，但是对比中英文的二进制码，可以发现，英文前9位都是0！浪费啊，浪费硬盘，浪费流量。
怎么办？

UTF。

UTF-8是这样做的：1. 单字节的字符，字节的第一位设为0，对于英语文本，UTF-8码只占用一个字节，和ASCII码完全相同；
2. n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。这样就形成了如下的UTF-8标记位：

于是，”It’s 知乎日报“就变成了：

I 01001001
t 01110100
' 00100111
s 01110011
  00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
报 11100110 10001010 10100101

和上边的方案对比一下，英文短了，每个中文字符却多用了一个字节。但是整个字符串只用了17个字节，比上边的18个短了一点点。

-----------------------------------------------------------------------------------------

扫描二维码关注公众号，回复： 12684612 查看本文章

base64decode用法https://blog.csdn.net/xyx107/article/details/89715412

在一些项目中，接口的报文是通过base64加密传输的，所以在进行接口自动化时，需要对所传的参数进行base64编码，对拿到的响应报文进行解码；

Base64编码是一种“防君子不防小人”的编码方式。广泛应用于MIME协议，作为电子邮件的传输编码，生成的编码可逆，后一两位可能有“=”，生成的编码都是ascii字符。
优点：速度快，ascii字符，肉眼不可理解
缺点：编码比较长，非常容易被破解，仅适用于加密非关键信息的场合
python2中进行Base64编码和解码

import base64
s = '我是字符串'
a = base64.b64encode(s)
print a
ztLKx9fWt/u0rg==
print base64.b64decode(a)

我是字符串

python3不太一样：因为3.x中字符都为unicode编码，而b64encode函数的参数为byte类型，所以必须先转码。

import base64

encodestr = base64.b64encode('abcr34r344r'.encode('utf-8'))
print(encodestr)
打印结果为
b'YWJjcjM0cjM0NHI='

结果和我们预想的有点区别，我们只想要获得YWJjcjM0cjM0NHI=，而字符串被b’…'包围了。
这时肯定有人说了，用正则取出来就好了。。。别急。。。
b 表示 byte的意思，我们只要再将byte转换回去就好了。。。源码如下

import base64

encodestr = base64.b64encode('abcr34r344r'.encode('utf-8'))
print(str(encodestr,'utf-8'))

打印结果为
YWJjcjM0cjM0NHI=

猜你喜欢

目录

热门文章