自然语言处理综论-第3章小结-形态学与有限状态转录机
本章介绍自然语言处理中的形态学,主要涉及词的构成、有限状态转录机以及用于模拟形态规则的一些共同使用的计算工具。
- 形态剖析是发现在词中所包含的连续语素的过程(如,cats剖析为cat+N+PL)。
- 英语主要使用前缀和后缀来表示屈折形态和派生形态。
- 英语的屈折形态相对简单,包括人称和数的一致关系以及时态标志(-ed和-ing)。
- 英语的派生形态比较复杂,包括诸如-action,-ness和-able这样的后缀以及诸如-co和re-这样的前缀。
- 英语的形态顺序规则(可允许的语素的顺序)可以用有限自动机来表示。
- 有限状态转录机是能生成输出符号的有限自动机的扩充。
- 双层形态学把有限状态转录机应用于形态表示和剖析。
- 拼写规则可以用转录机来实现。
- 存在着转录机的自动编译程序,该编译程序对于任何简单的重写规则都能造出一个转录机来。
- 词表和规则可以通过组合和交合不同的转录机而结合起来。
- Porter算法是从词干剥离词缀的简单有效的方法。它没有像包含词表的转录机模型那样精确,因此可以应用于诸如信息检索这样的领域,其中不需要精确的形态结构剖析。