19c74e76ee0a

编码与解码

编码(encode)：在Unicode中，每一个字符都有一个唯一的数字表示，那么将Unicode字符串转换为特定字符编码（ASCII、UTF-8、GBK）对应的字节串的过程和规则就是编码。

解码(decode)：将特定字符编码（ASCII、UTF-8、GBK）的字节串转换为对应的Unicode字符串的过程和规则就是解码。

简单理解：编码是给计算机底层用的，解码是显示给人看的。

3 Python中的默认编码

3.1 Python源代码文件的执行过程

我们都知道，磁盘上的文件都是以二进制格式存放的，其中文本文件都是以某种特定编码的字节形式存放的。对于程序源代码文件的字符编码是由编辑器指定的，比如我们使用Pycharm来编写Python程序时会指定工程编码和文件编码为UTF-8，那么Python代码被保存到磁盘时就会被转换为UTF-8编码对应的字节（encode过程）后写入磁盘。

当执行Python代码文件中的代码时，Python解释器在读取Python代码文件中的字节串之后，需要将其转换为Unicode字符串（decode过程）之后才执行后续操作。

3.2 默认编码

如果我们没有在代码文件指定字符编码，Python解释器会使用哪种字符编码把从代码文件中读取到的字节转换为Unicode字符串呢？就像我们配置某些软件时，有很多默认选项一样，需要在Python解释器内部设置默认的字符编码来解决这个问题，这就是“默认编码”。

Python2和Python3的解释器使用的默认编码是不一样的，我们可以通过sys.getdefaultencoding()来获取默认编码：

>>> # Python2
>>> import sys
>>> sys.getdefaultencoding()
'ascii'

 >>> # Python3
>>> import sys
>>> sys.getdefaultencoding()
'utf-8'

对于Python2来讲，Python解释器在读取到中文字符的字节码时，会先查看当前代码文件头部是否指明字符编码是什么。如果没有指定，则使用默认字符编码"ASCII"进行解码，导致中文字符解码失败，出现如下错误：

SyntaxError:Non-ASCII character '\xc4' in file xxx.py on line 11, but no encoding declared;
see http://python.org/dev/peps/pep-0263/ for details

对于Python3来讲，执行过程是一样的，只是Python3的解释器以"UTF-8"作为默认编码，但是这并不表示可以完全兼容中文问题。比如我们在Windows上进行开发时，Python工程及代码文件都使用的是默认的GBK编码，也就是说Python代码文件是被转换成GBK格式的字节码保存到磁盘中的。Python3的解释器执行该代码文件时，试图用UTF-8进行解码操作时，同样会解码失败，出现如下错误：

SyntaxError:Non-UTF-8 code starting with '\xc4' in file xx.py on line 11, but no encodingdeclared; 
see http://python.org/dev/peps/pep-0263/ for details

作者：hufengreborn
链接：https://www.jianshu.com/p/19c74e76ee0a
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

Python2与Python3的字符编码与解码

转载于：https://www.jianshu.com/p/19c74e76ee0a

编码与解码

3 Python中的默认编码

3.1 Python源代码文件的执行过程

3.2 默认编码

猜你喜欢