unicodedata :
1. unicode字符的标准化:
https://python3-cookbook.readthedocs.io/zh_CN/latest/c02/p09_normalize_unicode_text_to_regexp.html
2.unicode字符的CJK的含义: https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97
3.汉字的unicode编码范围:
https://blog.csdn.net/gywtzh0889/article/details/71083459
4.unicodedata.category(char):将每一个unicode字符分类,范围char所属的类别。
# 范围字符的unicode编码,unicode字符以及所属类别
for cp in range(65536):
ch = chr(cp)
cat = unicodedata.category(ch)
print(str(cp) + " " + chr(cp) + " " + unicodedata.category(chr(cp)))
5. 不换行空格: 0x202F https://www.cnblogs.com/yjf512/p/3216392.html