bert代码参考资料

unicodedata : 

        1. unicode字符的标准化:

                 https://python3-cookbook.readthedocs.io/zh_CN/latest/c02/p09_normalize_unicode_text_to_regexp.html

         2.unicode字符的CJK的含义:                           https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97

        3.汉字的unicode编码范围:

               https://blog.csdn.net/gywtzh0889/article/details/71083459

          4.unicodedata.category(char):将每一个unicode字符分类,范围char所属的类别。

         

# 范围字符的unicode编码,unicode字符以及所属类别
for cp in range(65536):
    ch = chr(cp)
    cat = unicodedata.category(ch)
    print(str(cp) + "  " +  chr(cp) + "   " + unicodedata.category(chr(cp)))

      5. 不换行空格: 0x202F  https://www.cnblogs.com/yjf512/p/3216392.html

猜你喜欢

转载自blog.csdn.net/biubiubiu888/article/details/86483449