hive里sql正则截取汉字、截取字母和数字

前几天新接到需求,要求截取字段里的汉字,咋一看挺难,截取字母、数字、特殊字符都简单,但是截取汉字的还是第一次遇见,查到汉字的编码,实验截取,在这里把代码发下,以备有需要的小伙伴使用。
hive-sql里的截取汉字代码:

regexp_extract(label,'([\\u4E00-\\u9FA5]+)',1)    windows下的截取汉字
regexp_extract(label,'([\\\u4E00-\\\u9FA5]+)',1)   linux下的截取汉字

顺便发下截取字母和数字的代码:

regexp_extract(label,'([a-zA-Z0-9]+)',1)

猜你喜欢

转载自blog.csdn.net/weixin_42474635/article/details/89445852