汉字的字向量、词向量和表示学习(中文词向量)

中文词向量、字向量
将汉字拆分成偏旁部首训练词向量

现在有个想法是将汉字拆分成偏旁部首或者笔画,想法来自 fastText 的 n-gram 字符集。(注意:在 Chinese NLP 领域, 应该默认以 word 为词, character 为字, 本文也是如此. 以后如无意外, 不再赘述。)

fastText:2016年 facebook 的论文
Enriching Word Vectors with Subword Information

cw2vec: 阿里
Learning Chinese Word Embeddings with Stroke n-gram Information
AAAI 2018高分录用的一篇中文词向量论文,出自蚂蚁金服人工智能部。

Chinese Word Vectors:目前最全的中文预训练词向量集合
https://www.jiqizhixin.com/articles/2018-05-15-10

自然语言处理算法之cw2vec理论及其实现(基于汉字笔画)
https://blog.csdn.net/HHTNAN/article/details/81807680

Unicode汉字笔画顺序表
UNICODE汉字笔顺表,共2万多个汉字,最多的有四十多划。
https://download.csdn.net/download/bao110908/363125

搜“笔画拆拆”
https://bbs.csdn.net/topics/380220799

猜你喜欢

转载自blog.csdn.net/s1162276945/article/details/85098420