基于笔画序列的中文字向量模型设计与研究

一 背景介绍

数据表示是机器学习领域的基础问题。在机器学习任务中,第一步即输入样本数字化。不同于声音、图像、视频等数字信号,自然语言具有先天的高度结构化、抽象化的特点。因此自然语言任务的首要任务便是将语言文字数字化。

随着技术的发展,语言文字的表征方式不断进步。从最初始的one-hot到如今的分布式表示,词向量包含的信息愈加的丰富。现有的统计模型对于未登录词、低频词依然无法有效的表征。中文词向量研究受限于中文汉字特有的“象形”特征,尚没有一种有效利用笔画信息方法。

二 研究难点

汉字是一种具有二维复杂结构的象形字。笔画——部件——汉字的层次构成结构。研究中文汉字字向量有一下难点:

1、部件结构复杂

不同部件在汉字中位置不一样,导致汉字字义变化,如“杲 gao3”、“杳yao3”等;

2、不同汉字可能对应相同的笔画序列

“日 曰”、“人 八 乂”等。

3、笔画序列为一维序列,汉字为二维结构

三 方法与设计

1、使用CNN网络结构,提取笔画序列中的部件信息

CNN网络结构具有平移不变性,卷积核大小的设置对应n-元笔画的部件,可以通过设置不同卷积核大小,提取不同笔画序列的部件信息

2、细化笔画系统,笔画序列和汉字一一对应

如“横”细化为“长横、短横、横”等,可以区分“日 曰”等汉字。引入注意力机制,计算笔画对汉字的贡献度去模拟细化后的笔画系统。

3、模型设计

模型扩展了Word2Vec中的CBOW模型,使用上下文抽取器替换上下文矩阵,字向量生成器替换词向量矩阵,采用Negative Sample方法,进行模型的训练。

需要注意的是,字向量生成器的输入是原始笔画序列X字向量贡献度,得到的新的笔画序列。

四 实验结果

对比了Word2Vec、GLoVe与本模型在中文NER中的准召率,本模型为F1值为81.6%,Word2Vec为80.2%,GloVe为81.1%。

猜你喜欢

转载自blog.csdn.net/u011349397/article/details/80480578