位(bit),字节(Byte),KB,MB,GB,TB,UTF-8,Unicode,字符集,排序规则

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/y41992910/article/details/83786038

1字节(byte) = 8位(bit)
1KB=1024byte
1MB=1024KB
1GB=1024MB

位(bit):位只有两种形式0和1
字节(byte):字节是有8个位组成的。可以表示256个状态。1字节(byte)=8位(bit)


一个utf8数字占1个字节

一个utf8英文字母占1个字节

占2个字节的:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码

占3个字节的:基本等同于GBK,含21000多个汉字

占4个字节的:中日韩超大字符集里面的汉字,有5万多个

少数是汉字每个占用3个字节,多数占用4个字节。

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码,由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。

如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。

UTF-8编码规则:如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的字节数,其余各字节均以10开头。UTF-8转换表表示如下:

猜你喜欢

转载自blog.csdn.net/y41992910/article/details/83786038