NLP学习记录(七)中文分词

一、分词的困难

- 分词规范化的的问题
1. 单字词与词素主机的划界
2. 短语划界
3. “二字词或三字词”,以及结合紧密,使稳定的二字次或三字词一律划分为词单位

- 歧义切分问题
1. 交集型切分歧义
2. 组合型切分歧义
3. 多义组合型切分歧义

- 未登录词的问题
1. 人名、地名、组织名
2. 新出的词汇
3. 术语、俗语、命名体识别

二、 分词的方法

1. 正向最大匹配(FMM)
假设分词词典中的最长词由i个汉字字符组成,则 用被处理文档的当前字符串中前i个字作为匹配 字段查找词典。若词典中存在这样一个字词,则 匹配成功,匹配字段作为一个词被切分出来,否则 匹配失败。应将匹配字段中的最后一个字去掉, 对剩下的字串重新进行匹配处理。如此进行下 去,直到匹配成功。然后取下一个字字串进行匹 配处理,直到文档被扫描完为止。
参考博客:https://blog.csdn.net/AimeeLee01/article/details/48881543
2. 逆向最大匹配(BMM)
逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好
参考博客:https://blog.csdn.net/lalalawxt/article/details/75477931
3. 双向匹配
将正向最大匹配与逆向最大匹配两种算法都切一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取其中一种分词结果输出。
参考博客:http://blog.sina.com.cn/s/blog_53daccf401011t74.html
4. 逐词遍历
5. 基于词表的分类

三、汉语分词的方法介绍

1. N-最短路径方法
该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N条路径。因为允许相等长度的路径并列,故最终的结果集合会大于或等于N。
参考博客:https://blog.csdn.net/shijing_0214/article/details/51494034
2. 基于词的N元语法模型(n-gram)的汉语分词方法
n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型。
参考博客:https://blog.csdn.net/ahmanz/article/details/51273500
3. 由字构成的汉语分词方法
基于字标注的方法的实际上是构词方法,即把分词过程视为字在一串字的序列中的标注问题。由于每个字在构造成词的时候,都有一个确定的位置。也即对于词中的一个字来说,它只能是词首字、词中字、词尾字或单字词一个身份。
字构成词的位置(词位)
B–词首 词中–M
E–词尾 单字词–S
4. 基于词感知机算法的汉语分词方法
感知器算法是一个可以解决二分类问题的线性分类模型,其模型对于我这样一个初学者来说都是很容易就可以理解的。基础的二分类感知器这里不再多做介绍,我们把目光转向分词算法所需的多类感知器算法身上。

多类感知器是感知器算法用于解决多类分类问题时的一个扩展,它的主要思想是:用多个感知器去进行多类分类,但每个感知器只将一类目标视为正例,而其他的目标均视为负例。
参考博客:https://blog.csdn.net/noter16/article/details/53501843
5. 基于字的生成式模型和区分式模型相结合的汉语分词方法

猜你喜欢

转载自blog.csdn.net/u014258362/article/details/80832534