【NLP】分词之最大匹配法原理

·底表:词语的静态查找表,是关于“什么是词”的明确定义,不需要词频数据,也不必将单字词列入。

·最大词长:底表中最长词的长度,以字符为单位计算。

·候选词:从某位置开始截取的一个字符串,初始长度为MIN(最大词长,剩余串长)

  候选词在底表中查找成功,便确定为词

  候选词长度为1时不必查找,默认为词。

猜你喜欢

转载自blog.csdn.net/zkq_1986/article/details/87972073