正则表达式——Unicode 属性

  每一个 Unicode 字符,除了有 Code Point 与之对应外,还具体其他属性,在正则表达式中常用到三种 Unicode 属性: Unicode Property、Unicode Script,分别对应字符符的功能、所属代码区段、书写系统;它们的表现形式都类似\p{property}

7.6.1 Unicode Property

  Unicode Property 的记法类似\p{L}\p{p}。它按照字符的功能分类 Unicode 字符,每个 Unicode 字符只能属于一个Unicode Property。

  可以这样理解 Unicode Property:它并不关心字符所属的语言,只关心字符的功能,比如\p{Z}表示任意的空白字符或不可见的分隔符;\p{P}表示任意标点字符,等等。遇到中英文混排、全角、半角字符同时出现的情况,看可以用\p{Z}匹配所有的空白字符(而不用关心空格到底是全角空格还是半角空格),用\p{P}匹配所有的标点字符(而不用关心逗号到底是中文逗号还是英文逗号)。

猜你喜欢

转载自www.cnblogs.com/gaara0305/p/10118664.html
今日推荐