Java中的char类型和Unicode编码方式

char类型用于表示单个字符,通常用来表示字符常量。'A'是编码为65所代表的字符常量,而"A"是一个包含字符A的字符串。

Unicode编码可以表示为十六进制,范围从\u0000到\uffff。例如:\u005B表示“[”,而\u005D表示“]”。除了使用转义序列符\u表示Unicode代码单元的编码外,还有一些用于表示特殊字符的转义序列符,比如我们常见的"\b、\n、\t、\r"等。所有这些转义序列符都可以出现在字符常量以及字符串的引号内。而\u还可以出现在字符常量或字符串的引号外。比如我们常见的Java代码可以这样写:

public static void main(String\u005B\u005D args)  

图1

Java解决Unicode字符不够用的解决办法。从JDK5.0开始。
代码点是指与一个编码表中的某个字符对应的代码值。在Unicode标准中,代码点采用十六进制书写,并且加上前缀U+,
例如U+0041就是字母'A'的代码点。Unicode的代码点分为17个代码级别。第一个代码点被称为基本的多语言级别,代码点
从U+0000到U+FFFF,其中包括了经典的Unicode代码。其余的16个附加级别,代码点从U+10000到U+10FFFF,其中包括了一些
辅助字符。

UTF-16编码采用了不同长度的编码表示所有的Unicode代码点。在基本的多语言级别中,每个字符用16位表示,通常被称为代码单元;而辅助字符采用一对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内,通常被称为替代区域(surrogate area)[U+D800--U+DBFF用于第一个代码单元,U+DC00--U+DFFF用于第二个代码单元]。这样设计十分巧妙,我们可以迅速地知道一个代码单元是一个字符的编码,还是一个辅助字符的第一或第二部分。

为了便于对上段知识的理解,我接下来讲一下Unicode的替代区。
Unicode的替代区
Unicode的替代区开始于0平面0xD800和0xDC00,分为高字段和低字段,各1024码位。
在0平面,为了在1--16平面表示4字节字符,替代区专用于UTF-16。
替代方法是高字段和低字段各取一字放在一起拼成一个UTF-16的4字节字符,形成1--16平面的全部字符,1024X1024=1048576个码位。

在Java中,char类型用UTF-16编码描述一个代码单元。所以在Java编程中强烈建议不要使用char类型,除非确实需要对UTF-16
代码单元操作。最好将需要处理的字符串用抽象数据类型表示。


猜你喜欢

转载自blog.csdn.net/m0_37732829/article/details/80550933