前几天新接到需求,要求截取字段里的汉字,咋一看挺难,截取字母、数字、特殊字符都简单,但是截取汉字的还是第一次遇见,查到汉字的编码,实验截取,在这里把代码发下,以备有需要的小伙伴使用。
hive-sql里的截取汉字代码:
regexp_extract(label,'([\\u4E00-\\u9FA5]+)',1) windows下的截取汉字
regexp_extract(label,'([\\\u4E00-\\\u9FA5]+)',1) linux下的截取汉字
顺便发下截取字母和数字的代码:
regexp_extract(label,'([a-zA-Z0-9]+)',1)