中文分词原理

中文分词比较复杂,并没有英文分词那么简单.这主要是因为中文分词的词与词之间并不像英文那样用空格隔开.
主要的方法有三种:基于词典匹配的分词方法,基于语义理解的分词,基于词频统计的分词.
1.基于词典分配的分词算法
    基于字典匹配的分词算法按一定的匹配策略将输入的字符串与机器字典词条进行匹配.
如果在词典中找到当前字符串则匹配成功,输出识别的词汇.按照匹配操作的扫描方向不同,可以分为正向匹配和逆向匹配,以及双向匹配.按照不同长度优先匹配的情况,可以分为最大匹配最小匹配.按照是否与词性标注相结合,可以分为单纯分词方法和分词与词性标注相结合.其实真正的分词算法都是将词典分词作为基础手段,结合各种语言的其他特征信息来提高切分的效果和准确度.
    查找词典的算法一般包括:数字搜索树,Trie算法等.
2.基于语义理解的分词
    基本模式是把分词,句法,语义分析并行进行,利用句法和语义信息来处理分词的歧义.
3.基于词频统计的分词
    通常词是稳定的词的组合,因此在中文文章的上下文中,相邻的字搭配出现的频率越高,就越有可能形成一个固定的词.实际的系统中,通过对精心准备的中文语料中相邻共现的各个字的组合的频度进行统计,计算不同字词的共现信息.根据两个字的统计信息,计算两个汉字的相邻共现频率.当紧邻程度高于某个阀值时,便可认为此字组为一个固定词.

猜你喜欢

转载自fjg0427.iteye.com/blog/1429945