计算机编码发展史（精简）

　　转自https://www.linuxidc.com/Linux/2018-12/155956.htm

　　做个记录

　　（1）ASCII编码
　　众所周知，计算机只能处理0和1，任何符号都转换为0和1的序列才能处理。计算机中8个位（bit）作为一个字节，所以1个字节能产生2的8次方个0和1的不同组合，也就是说1个字节做多能表示256种字符。ASCII编码就是用1个字节来存储字符，计算机最初是美国人发明的，他们的符号不多，所以还将8个0和1序列中的第一位固定为0，ASCII只能表示127个字符。
　　（2）GB2312编码
　　美国佬的符号不多，所以ASCII编码够用，但是其他国家就不行了，每个国家符号数量都不一样，就各自指定了自己的编码。例如我们中国就制定了GB2312编码。GB2312编码用2个字节表示一个字符。
　　（3）Unicode编码
　　每个国家都用自己的编码，编码一朵就容易乱套，也没法交流，所以需要一种编码把各个国家的编码都囊括进去，这就是Unicode编码的由来。所以，Unicode也被称为万国码。Unicode编码也用2个字节存储一个字符。
　　（4）utf-8编码
Unicode编码解决了编码不能通用的问题，但是却容易浪费内存，尤其是在存储英文的时候，例如一个字符“A”，ASCII编码只需要1个字节就够，但是Unicode编码必须要用2个字节。为了解决这一问题，就有了utf-8编码。 utf-8编码把存储英文依旧用一个字节，汉字就3个字节。特别是生僻的编程4-6字节，如果传输大量英文，utf-8作用就很明显了。
utf-8编码进行存储时有极大地优势，但是当读取到计算机内存时却不大合适，因为utf-8编码是变长的，不方便寻址和索引，所以在计算机内存中，还是转化为Unicode编码合适些。这就可以解释为什么每次读取文本时，要将编码转化为Unicode编码，而将内存中的字符写入文件存储时，要将编码转化为utf-8了

计算机编码发展史（精简）

猜你喜欢