python中关于unicode,utf-8,gbk等编码的联系与区别笔记

其他 2018-08-29 20:11:26 阅读次数: 0

1.基本概念

（1）字符和字节是两个不同的术语，在unicode中一个字符就是两个字节，如’人’一个字符占两个字节。对于python中len()函数,len(u’中国’)和len(‘hi’)一样长度值都为2，这里长度是指字符长度

（2）ASCII码跟Unicode没有本质的区别。只不过Unicode表示范围比ASCII大

（3）在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码

2.unicode和utf-8的区别

（1）unicode是charset(字符集)，包括GBK,GBK2312也是字符集

（2）utf-8是encoding(编码)：多字节编码，对英文使用8位(1个字节)，对中文使用24位(3个字节)编码

（3）unicode是一个字符集，utf-8是在这个字符集基础上的一种具体的编码方案，为了更好的存储和传输，还有utf-16，utf-32等。

3.平时我们读取utf-8编码保存的txt文件的原理:

文本文档是utf-8编码保存的，这样可以最大限度的节省空间。但是当对文档进行操作时，计算机会先把utf-8转换为unicode然后放在内存中，保存时又将unicode转换为utf-8。

4.python之中utf-8,unicode,gbk之间转换

（1）在一些应用场景，会出现这样的需求：UTF-8 -> Unicode -> GBK，然而，unicode与GBK没有相对应的算法可以直接转换，gbk与unicode没有直接的对应关系，只能通过一张大表将两者联系起来。

（2）在python中unicode中的type为str,gbk/utf-8的类型为byte，如下图

（3）unicode，utf-8，gbk之间的转换,需要先转为unicode

utf-8 <---> unicode <---> gbk

转换例子：

s=u'小明'

#编码为utf-8

s_utf = s.encode('utf-8')

#变为为gbk,先解码为unicode，再编码

s_gbk = s_utf.decode('utf-8').encode('gbk')

结果如下图所示,utf-8一个中文占3个字节，gbk两个字节

UNICODE,GBK,UTF-8区别参考链接：

https://www.cnblogs.com/gavin-num1/p/5170247.html

猜你喜欢

转载自blog.csdn.net/feiyang5260/article/details/81947444

python中关于unicode,utf-8,gbk等编码的联系与区别笔记

Python中GBK, UTF-8和Unicode的编码问题

【编码】ASCII、Unicode、GBK和UTF-8字符编码的区别联系

JAVA 编码之 ASCII、Unicode、GBK和UTF-8字符编码的区别联系

ASCII，Unicode，GBK和UTF-8字符编码的区别和联系

ASCII、Unicode、GBK和UTF-8字符编码的区别联系

ASCII、Unicode、GBK和UTF-8字符编码的区别与联系

3、Unicode\UTF-8\GBK 区别和联系

ascii、unicode、utf-8、gbk编码区别及转换

GBK、ANSI、Unicode、UTF-8编码

ascii、unicode、utf-8、gbk编码

编码方式ASCII、Unicode和UTF-8的区别及联系

python3 中的编码问题 unicode, utf-8, gbk, ascii

ascii、unicode、utf-8、gbk 区别

论GBK、Unicode、UTF-8的区别

unicode 、utf-8 、utf-16、ascii 、gbk 、gb2312之间的联系和区别

字符编码中ASCII、Unicode和UTF-8的区别

utf-8 unicode gbk

pyhton关于编码Unicode，utf-8

unicode和utf-8编码区别

关于gbk, gb2312，unicode，utf-8等字符编码的问题

utf-8、unicode、gbk、gb2312、ANSI编码的区别

ASCII，Latin1，Unicode，UTF-8与GBK编码的区别

[转]字符编码详解及由来(UNICODE,UTF-8,GBK)

【转载】字符编码详解及由来(UNICODE,UTF-8,GBK)

字符编码Unicode UTF-8 GBK的不同和转换

字符编码：GBK/UTF-8/Unicode decode/encode

字符编码及由来(UNICODE,UTF-8,GBK)

可爱的编码——ASC、Unicode、UTF-8、GBK

编码方式ASCII、GBK、Unicode、UTF-8比较

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)