自然语言处理综论-第12章小结-词汇化剖析与概率剖析
本章给概率剖析的基础画出了一个轮廓,介绍了概率上下文无关语法和概率词汇化语法
- 概率语法给一个句子或者单词的符号串指派了一个概率,从而捕捉到了比第6章中的N元语法更细致的句法信息。
- 概率上下文无关语法(PCFG)是一种上下文无关语法,其中每个规则都标上了选择该规则的概率。处理每个上下文无关规则时,假定它们在条件上是独立的;因此一个句子的概率使用剖析该句子时每个规则的概率的乘积来计算。
- Cocke-Younger-Kasami算法(CYK算法)是一种自底向上的动态规划剖析算法。不论是CYK算法还是Earley算法,经过增强之后都可以计算它们在剖析一个句子时的剖析概率。
- PCFG的概率可以通过一个已剖析好的语料库的计数得到,或者通过直接剖析一个语料库得到。当剖析的句子有歧义时,可以使用向内-向外算法来处理。
- 概率词汇化的CFG使用每个规则的词汇中心语来增强。这样,规则的概率就要以词汇中心语和邻近的中心语作为它的条件。
- 剖析器可以使用三个办法来评价:标记的召回率、标记的准确率、交叉括号。
- 花园幽径句和其他联机句子处理试验证明,人的剖析是按照概率进行的,并且使用诸如次范畴化信息这样的概率语法知识。