Lua 删除UTf-8编码中的特殊字符

首先，我们要对UTF-8有一个基本的认识，根据Wiki上面的解释：

UTF-8使用一至六个字节为每个字符编码（尽管如此，2003年11月UTF-8被RFC 3629重新规范，只能使用原来Unicode定义的区域，U+0000到U+10FFFF，也就是说最多四个字节）：
1. 128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。
2. 带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要两个字节编码（Unicode范围由U+0080至U+07FF）。
3. 其他基本多文种平面（BMP）中的字符（这包含了大部分常用字，如大部分的汉字）使用三个字节编码（Unicode范围由U+0800至U+FFFF）。
4. 其他极少使用的Unicode 辅助平面的字符使用四至六字节编码（Unicode范围由U+10000至U+1FFFFF使用四字节，Unicode范围由U+200000至U+3FFFFFF使用五字节，Unicode范围由U+4000000至U+7FFFFFFF使用六字节）。

**Unicode 和 UTF-8 之间的转换关系表 ( `x` 字符表示码点占据的位 )**
码点的位数	码点起值	码点终值	字节序列	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`110xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
26	U+200000	U+3FFFFFF	5	`111110xx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
31	U+4000000	U+7FFFFFFF	6	`1111110x`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

在ASCII码的范围，用一个字节表示，超出ASCII码的范围就用字节表示，这就形成了我们上面看到的UTF-8的表示方法，这様的好处是当UNICODE文件中只有ASCII码时，存储的文件都为一个字节，所以就是普通的ASCII文件无异，读取的时候也是如此，所以能与以前的ASCII文件兼容。

大于ASCII码的，就会由上面的第一字节的前几位表示该unicode字符的长度，比如110xxxxx前三位的二进制表示告诉我们这是个2BYTE的UNICODE字符；1110xxxx是个三位的UNICODE字符，依此类推；xxx的位置由字符编码数的二进制表示的位填入。越靠右的x具有越少的特殊意义。只用最短的那个足够表达一个字符编码数的多字节串。注意在多字节串中，第一个字节的开头"1"的数目就是整个串中字节的数目。

有了基本的认识之后，我们现在假设，只需要一个字节或三个字节的长度的字符。为了判断一个字符是多少个字节，我们需要一个函数来判断UTF-8的第一个字节的连续的1的位有多少个（从最高位开始）：

Lua5.3版本

--获取一个字节中，从最高位开始连续的1的个数
function  get_continuous_1_count_of_byte(num)
    if nil == num then 
        return -1
    end

    local count = 0
    while (num & 0x80 ~= 0) do
        count = count + 1
        num = num << 1
    end
    return count
end

接下来是删除特殊字符的函数：

-- 删除字符串中的特殊字符，特殊字符指代 utf-8 编码中字节数大于或等于4个字节和2个字节的的符号
function delete_special_char(raw_string)
    if nil == raw_string or string.len(raw_string) == 0 then
        return raw_string
    end
    local new_string = {}
    local index_of_raw_string = 1
    while index_of_raw_string <= string.len(raw_string) do
        local count_1_of_byte = get_continuous_1_count_of_byte(string.byte(raw_string, index_of_raw_string))
      
        if count_1_of_byte < 0 then
            return raw_string
        end
      
        if 0 == count_1_of_byte then
            count_1_of_byte = 1
        end
        if count_1_of_byte <= 3 and count_1_of_byte ~= 2 then
            for i = 0, count_1_of_byte - 1 do 
                table.insert(new_string, string.char(string.byte(raw_string, index_of_raw_string + i)))
            end
        end

        index_of_raw_string = index_of_raw_string + count_1_of_byte
    end

    return table.concat(new_string)
end

这样就只剩下BMP和ASCII码的字符了。

Lua 删除UTf-8编码中的特殊字符

猜你喜欢