ASCII, 유니 코드, UTF

컴퓨터에서, 8 비트에 대응하는 바이트는 각각 0 또는 1이고, 따라서 256 바이트 케이스를 나타내는 수를 나타내는 수있다.

아스키

미국인들이 공통의 문자를 표현하기 위해 7의 마지막 바이트를 보냈다,이는 아스키 코드, 최상위 비트는 0이었다.

그래서 아스키 코드는 영어 문자와 컴퓨터 제어 바이너리 변환 사전이다. 각각 바이트 ASCII 코드.

영어의 경우, 128 개 문자는 충분했지만, 다른 언어에 대한 256 비트 문자가 반드시 충분하지 않을 수 있습니다. 따라서, 미국은 ANSI의 다른 국가 언어에 대한 사양 및 127 아스키 동일, 다른 사람들이 중국의 GB2312, GBK, GB18030,의 Big5, 등등 일본어은 Shift_JIS하고, 다음 행으로 계속 제안했다. 아스키에서

문자는 한 바이트를 차지, 다른 기호는 두 바이트입니다. 미국에서 중국에 메시지를 보내는 경우, 기본 인코딩은 아스키 코드이지만, 기본 GBK의 해결과 중국에서이를 방지하기 위해, 당신은 통합 글로벌 코딩 포맷을 만들 필요가 발생 깨진 경우. 이 유니 코드 등장이 시간


 

유니 코드

그것은 주목해야한다 유니 코드는 이진 표기법을 제공하고, 단지 기호의 집합이지만,이 바이너리 코드에 저장하는 방법을 지정하지 않습니다. 세계에서 너무 많은 언어와 기호,이 셋, 넷 또는 더 이상 바이트 길이를 취할 수있다 뒷면에 서명을 생각할 수있다,

이것은 몇 가지 문제를 주도하고있다, 당신은 문자의 두 바이트 컴퓨터가 아닌 두 문자를 표현하는 방법을 알아? 4 바이트가 표현 될 수있는 가장 큰 유니 코드 문자가, 우리는 모든 문자를 표현하기 위해 4 바이트를 사용할 경우 여기에 우리가 최대 걸릴 것, 생각하는 것, 충분하지 왕 Qianmian을 채우기 위해 0

이 문제를 코딩 해결 않지만 영어 문서이며, 파일 크기가 분명히 용납 세 번 아웃 크다고 경우는, 공간의 큰 낭비를 일으켰습니다.

그래서, 더 나은 유니 코드, UTF-8 인코딩의 문제를 해결하기 위해 UTF을-16은 현재 인기 인코딩 두 종류가 탄생. 물론, UTF-32 인코딩 즉, 상기 고정 길이 코드 4 바이트 균일 캐릭터의 종류는, 거기이다 겉보기 편리하지만, 다른 두 개의 널리 사용되는 인코딩만큼 좋지 않지만


 

UTF-8

텐센트 여기에서 밖으로는 얼굴 질문에 대해 말씀해하기

UTF-8의 가장 큰 특징은 가변 길이 인코딩 것입니다. 이것은 하나 개의 심볼의 1 내지 4 바이트 일 수 있고, 바이트 길이가 기호에 따라 달라진다 .

UTF-8 인코딩 규칙은 두 매우 간단합니다 :

1) 단일 바이트 기호, 바이트 0의 집합, 유니 코드 심볼의이면 (7) . 따라서, 영어 알파벳을 위해, UTF-8 인코딩 및 ASCII 코드는 동일합니다.

2) 심볼 N 바이트 (N> 1)에 대해, 첫 번째 바이트의 제 n 비트가 1로 설정되고, 제 n + 1 비트가 0으로 설정되고, 후방의 제 2 바이트에 균일하게 열을 설정. 나머지 비트들은 유니 코드 심볼 모두를 언급하지 .

다음 표는 인코딩 규칙, 문자 X 사용 가능한 인코딩 비트를 나타냅니다을 요약 한 것입니다.

유니 코드 기호 범위 | UTF-8 인코딩

(16 진수) | (진)
---------------------- ----------------- ± ---------------------------
0000 0000-0000 007F | 0xxxxxxx와
0000 0080-0000 07FF | 110xxxxx에 10xxxxxx에
0000 0800-0000 FFFF | 1110xxxx와 10xxxxxx에 10xxxxxx에
0001 0000-0010 FFFF | 11110xxx 10xxxxxx에 10xxxxxx에 10xxxxxx에

이 UTF-8 인코딩을 읽는 것은 매우 간단합니다, 테이블에 지금이다. 첫 번째 바이트가 0 인 경우, 이것은 단일 바이트 문자는 상기 제 1 비트가 연속 한 수 있다면, 현재의 글자가 차지하는 바이트 수를 나타낸다.

필요 하드 드라이브에 저장하거나 전송하기 (1) 컴퓨터 메모리에 통합 사용 유니 코드 인코딩 : ASCII, 유니 코드와 UTF-8 사이의 관계를 파악하기 위해, 우리는 지금 일반 문자 인코딩 컴퓨터 시스템이 작동 요약 할 수 있습니다 시간은 UTF-8 인코딩으로 변환된다. (2) UTF-8 문자 파일에서 읽을 시간을 편집 할 메모장을 사용하여

편집이 완료되면 그것은 메모리에 유니 코드 문자로 변환되고, 시간을 저장 한 다음 (찾기 위해 인터넷에서 그림) 파일을 저장하기 위해 유니 코드 UTF-8로 변환.

 

추천

출처www.cnblogs.com/ZoHy/p/11284024.html