[NLP] 自动分词

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/albert19891108/article/details/80201241

《统计自然语言处理》学习笔记

由字构词的汉语分词方法(2002)

由字构词的汉语分词方法的思想:它是将分词的过程看作字的分类问题。在以往的分词方法中,无论是基于规则的方法还是基于统计的方法,一般都依赖于一个事先编制的词表,自动分词的过程就是通过查词表作出词语切分的决策,与此相反,由字构词的分词方法认为每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)假如每个字只有4个词位:词首(B),词尾(E),词中(M),单独成词(S)

         上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。

        上/B 海/E 计/B 划/E 到/S 本/S 世/B纪/E末/S 实/B现/E 人/B均/E 国/B内/E 生/B产/E 总/B值/E 五/B 千/M美/M元/E 。/S

其中字 包括 汉字 标点符号 外文字母 注音符号 阿拉伯数字等可能出现在汉语文本中的文字符号,所有的这些字符都是又字构词的基本单元。

分词结果表示成字标注形式之后,分词问题就变成了序列标注问题。

通常情况下,使用基于字的判别模型时需要在当前字的上下文中开一个w个字的窗口,在这个窗口里抽取分词的相关的特征。常用的模板有多种(5)。

由字构词的分词技术的重要优势在于,它能够平衡地看待词表词和未登录词识别问题,文本中的词表词和未登录词都是用统一的字标注过程来实现的分词过程成为字重组的简单过程。在学习架构上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块,因此,大大简化了分词系统的设计。

基于词感知机算法的汉语分词方法(2007)

常用的判别式模型:最大熵,条件随机场,支持向量机和感知机

猜你喜欢

转载自blog.csdn.net/albert19891108/article/details/80201241
今日推荐