用正则处理Unicode 编码的文本 - 代码天地

用正则处理Unicode 编码的文本

企业开发 2023-08-26 17:21:48 阅读次数: 0

Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字进行了整理、编码。Unicode 使计算机呈现和处理文字变得简单。

现在的 Unicode 字符分为 17 组编排，每组为一个平面（Plane），而每个平面拥有 65536（即 2 的 16 次方）个码值（Code Point）。然而，目前 Unicode 只用了少数平面，我们用到的绝大多数字符都属于第 0 号平面，即 BMP 平面。除了 BMP 平面之外，其它的平面都被称为补充平面。

Unicode 标准也在不断发展和完善。目前，使用 4 个字节的编码表示一个字符，就可以表示出全世界所有的字符。nicode 相当于规定了字符对应的码值，这个码值得编码成字节的形式去传输和存储。最常见的编码方式是 UTF-8。

Unicode 和 UTF-8 的转换规则：

在正则中常用的有三种，分别是按功能划分的 Unicode Categories（有的也叫 Unicode Property），比如标点符号，数字符号；按连续区间划分的 Unicode Blocks，比如只是中日韩字符；按书写系统划分的 Unicode Scripts，比如汉语中文字符。

此文章为8月Day25学习笔记，内容来源于极客时间《正则表达式入门课》，推荐该课程。

猜你喜欢

转载自blog.csdn.net/key_3_feng/article/details/132503626

用正则处理Unicode 编码的文本

Unicode 正则编码范围

unicode编码-正则

django 处理unicode编码

独热编码处理文本属性

python 文本文件的编码格式：ASCII编码和UNICODE编码

以Unicode(UTF-16 LE)编码保存文本

PHP中文文字正则替换，并将需要处理的中文做处理（符号代替、unicode编码、翻译等等操作）

【Error】macOS 文本编辑器错误：文本编码“Unicode (UTF-8)”不适用。

用python转换不同编码的文本文件

用java读取unicode编码的txt文件

Jmeter 处理Unicode编码转为中文

处理 Unicode转汉字编码问题

Perl正则表达式(3) - 用正则表达式处理文本

文本编码

Mac电脑使用：解决Mac上“文本编码Unicode(UTF-8)不适用”、文本编码“中文 (GB 18030)不适用“的问题

MAC未能打开文稿“.txt”.文本编码Unicode(UTF-8)不适用

C#与C++交互（2）——ANSI、UTF8、Unicode文本编码

ptyon 特殊处理url编码与解码，字符编码转化unicode

unicode编码

Unicode 编码

正则表达式和Unicode编码

ASCII编码与Unicode编码

每日一道算法题——求xx字母个数，用正则处理文本是很方便的

python自然语言处理——3.7 用正则表达式为文本分词

用正则表达式在PHP中提取和处理文本数据

JAVA之编码---- CSV在文本下是正常的，用EXCEL打开是乱码的问题

处理编码问题利器之文本编辑器⑴——wxMEdit

处理编码问题利器之文本编辑器⑵——Vim

循环神经网络（一）（文本预处理，分词，独热编码，词嵌入，keras 代码）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)