系统编码、文件编码与python系统编码

在linux中获取系统编码结果: 

Windows系统的编码,代码页936表示GBK编码 

可以看到linux系统默认使用UTF-8编码,windows默认使用GBK编码。Linux环境下,文件默认使用UTF-8编码。当然你也可以指定文件编码方式。

这个时候需要告诉python解释器用utf-8去解读python源文件

 Python解释器内部默认使用的ASCII编码方式去解读python源文件

扫描二维码关注公众号,回复: 5286246 查看本文章

Python字符编码

Python2中有两类字符串,分别是str与unicode。这两类字符串都派生自抽象类basestring。 
Str即普通字符串类型 

在字符串前加上u即unicode编码 

在代码中通常用到的是unicode,文件保存的是utf-8编码。Unicode编码是固定2个字节代表一个字符。Utf-8是对英文只用一个字节,对中文是3个字节。所以unicode运行效率高,utf-8运行效率相比要低,但是空间存储要小。

 GBK->Unicode

GBK->Unicode->UTF-8

Python中UTF-8与unicode转换

Unicode转UTF-8

UTF-8转Unicode

1种使用unicode函数

其函数中参数UTF-8是,以utf-8编码对unicode对象解码,或编码。

 1种使用decode函数转换

 

猜你喜欢

转载自www.cnblogs.com/hushaojun/p/10421773.html