编码详解 ——包含ASCII、GBK、unicode、UTF-8等 - 代码天地

编码详解 ——包含ASCII、GBK、unicode、UTF-8等

其他 2020-07-28 10:11:43 阅读次数: 0

地址链接：https://mp.csdn.net/postedit/83684685

编码集是什么？

用于图形界面显示对应的编码集，其实就是图形

一、ASCII

最早起实现图形界面，计算机中的字节对应的字符集，只使用了0x00 - 0x7F， 1个字节

二、ISO-8859-1

西欧字符集，还有一些ISO-8859-2，ISO-8859-3等等

计算机发展到欧洲后，发现ASCII码没有包含他们特有的字符

所以兼容ASCII码，进行扩展，从0x80 - 0xFF，1个字节

三、GB2312

中文简体编码集，计算机发展到中国后创造的字符集

兼容ASCII码，是2个字节。所有的2个字符的内容（中文、全角符号等）高位字节和低位字节必须都大于0x7F

四、GBK

中文编码集，包括繁体

兼容GB2312，2个字节。只需要高位字节大于0x7F，低位字节不限制

五、GB18030

1个字节、2个字节、4个字节三种方式对字符编码，兼容GBK

六、BIG5

台湾的繁体中文字符集，2个字符

七、Unicode

每种语言中的每个字符设定了统一并且唯一的二进制编码

共有17个平面

其中有一个BMP基础平面，是2个字节，一般的中文也是2个字节

其他16个平面都是4个字节，不兼容ASCII，会将ASCII的1个字节变成2个字节，增大一倍的内存

example：你好啊 = \u4f60\u597d\u554a

八、UTF-8：UTF-8、UTF-16、UTF-32

可变字节：1个字节，2个字节，3个字节，4个字节，中文是3个字节，兼容ASCII

A. 小于0x80，对应ASCII

B. 多字节：

读一个字节，大于0x7Fz之后，展开为二进制

字节的高位有几个连续的1，那么就代表需要取几个字节

110* ****: 代表的是2个字节表示一个字符

1110 ****：代表的是3个字节表示一个字符

1111 0***：代表的是4个字节表示一个字符

后续跟着的字节，前面2位必须是10，这2个无实际意义

example：

汉字：中

对应utf-8的字节： b'\xe4\xb8\xad'

展开： e 4 b 8 a d

1110 0100 1011 1000 1010 1101

去掉第一个字节的表示位数的1110和后续的字节的高2位10

0100 11 1000 10 1101

每8位进行拼接：

0100 1110 0010 1101

4 e 2 d

对应的Unicode编码就是： \u4e2d

ending...

date: 2018-11-03

author: cymx66688

猜你喜欢

转载自blog.csdn.net/cymx66688/article/details/83684685

编码详解 ——包含ASCII、GBK、unicode、UTF-8等

ascii、unicode、utf-8、gbk编码

ascii、unicode、utf-8、gbk编码区别及转换

编码方式ASCII、GBK、Unicode、UTF-8比较

字符编码ascii、unicode、utf-8、gbk 的关系

ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解（一）

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解（二）

ascii，unicode，gbk, utf-8, utf-16等字符编码问题

ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式比较分析

ASCII GBK UTF-8 编码

计算机编码知识，ASCII编码，GBK，Unicode，UTF-8编码详细介绍

GBK、ANSI、Unicode、UTF-8编码

[转]字符编码详解及由来(UNICODE,UTF-8,GBK)

【转载】字符编码详解及由来(UNICODE,UTF-8,GBK)

【编码】ASCII、Unicode、GBK和UTF-8字符编码的区别联系

JAVA 编码之 ASCII、Unicode、GBK和UTF-8字符编码的区别联系

ASCII、Unicode、UTF-8编码关系

ASCII、ANSI、Unicode及UTF-8编码

Unicode,UTF-8,ASCII等字符编码

编码格式ASCII、Unicode、UTF-8

ASCII、Unicode、UTF-8编码

编码：ASCII 、UniCode、UTF-8

字符编码：ASCII Unicode UTF-8

字符编码ASCII、Unicode、UTF-8

编码：ASCII，Unicode 和 UTF-8

字符编码详解：ASCII、Unicode、UTF-8

概念浅析：字符集、字符编码、字节序、ASCII、GBK、Unicode、UTF-8、ANSI

ASCII，Unicode，GBK和UTF-8字符编码的区别和联系

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)