NLP--基于规则的自然语言处理方法（理性方法，传统方法）

1. 概述

强调对语言知识的理性整理（知识工程）
受计算语言学理论指导
基于规则的知识表示和推导（符号计算）
语言处理规则（数据）与程序分离，程序体现为规则语言的解释器！

2. 词法分析

 形态还原（针对英语、德语、法语等）

把句子中的词还原成它们的基本词形。

 词性标注

为句子中的词标上预定义类别集合（标注集）中的类。

 命名实体识别

人名
地名
机构名

 分词（针对汉语、日语等）

识别出句子中的词。

2.1形态还原（英语）

 把句子中的词还原成原形，作为词的其它信息（词典、个性规则）的索引。
 构词特点

屈折变化：词尾和词形变化，词性不变。如：

study, studied,studied,studying
   speak,spoke,spoken,speaking

派生变化：加前缀和后缀，词性发生变化。如：

friend,friendly,friendship,...

复合变化：多个单词以某种方式组合成一个词。

 还原规则

通用规则：变化有规律
个性规则：变化无规律

2.1.1 形态还原规则举例

 英语“规则动词”还原

*s -> * (SINGULAR3)
*es -> * (SINGULAR3)
*ies -> *y (SINGULAR3)
*ing -> * (VING)
*ing -> *e (VING)
*ying -> *ie (VING)
*??ing -> *? (VING)
*ed -> * (PAST)(VEN)
*ed -> *e (PAST)(VEN)
*ied -> *y (PAST)(VEN)
*??ed -> *? (PAST)(VEN)

 英语不规则动词还原

went -> go (PAST)
gone -> go (VEN)
sat -> sit (PAST) (VEN)

2.1.2 形态还原算法

输入一个单词
如果词典里有该词，输出该词及其属性，转4，否则，转3
如果有该词的还原规则，并且，词典里有还原后的词，则输出还原后的词及其属性，转4，否则，调用<未登录词模块>
如果输入中还有单词，转(1)，否则，结束。

Proj. 1 实现一个英语单词还原工具。
（词典：http://nlp.nju.edu.cn/MT_Lecture/dic_ec.rar）

2.2 词性标注

 为句子中的词标上预定义类别集合（标注集）中的类（词性），为后续的句法/语义分析提供必要的信息。
 标注体系的确定
 标注方法

2.2.1 词性标注体系

 词的分类

按形态和句法功能（句法相关性）
按表达的意思（语义相关性）
兼顾上述二者

2.2.1.1 英文词的分类

 开放类（open class）

- Nouns

句法上：可作物主、可有限定词、有复数形式

语义上：人名、地名和物名

- Verbs

句法上：作谓语、有几种词形变化
语义上：动作、过程（一系列动作）

- Adjectives

句法上：修饰Nouns等
语义上：性质

- Adverbs

句法上：修饰Verbs等
语义上：方向、程度、方式、时间

 封闭类（closed class，function words）

Determiners
Pronouns
Prepositions
Conjunctions
Auxiliary verbs
Particles（if、not、…）
Numerals

2.2.1.2 汉语分词（切分）

 词是语言中最小的能独立运用的单位，也是语言信息处理的基本单位。
 分词是指根据某个分词规范，把一个“字”串划分成“词”串。

问题：难以确定何谓汉语的“词”

1.单字词与语素的界定：猪肉、牛肉
2.词与短语（词组）的界定：黑板、黑布
信息处理用现代汉语分词规范：GB-13715（1992）
具体应用系统可根据各自的需求制定规范

 分词带来的问题

丢失信息、错误的分词、不同的分词规范

2.2.1.2.1切分歧义及歧义字段的种类

 交集型歧义字段

ABC切分成AB/C或A/BC

 如：“和平等”
 “独立/自主/和/平等/独立/的/原则”
 “讨论/战争/与/和平/等/问题”

 组合型歧义字段

AB切分成AB或A/B

 如：“马上”
 “他/骑/在/马/上”
 “马上/过来”

 混合型歧义

由交集型歧义和组合型歧义嵌套与交叉而成

 如：“得到达”（交集型、组合型）
 	“我/今晚/得/到达/南京” 
 	“我/得到/达克宁/了 ” 
 	“我/得/到/达克宁/公司/去”

 伪歧义与真歧义

伪歧义字段指在任何情况下只有一种切分

 “挨批评”只有一种切分
 根据歧义字段本身就能消歧

真歧义字段指在不同的情况下有多种切分

“从小学”可以有多种切分：

“从小/学” ，如：“从小/学/电脑” （“从小”是切分成“从小”还是“从/小”要根据分词规范！）
“从/小学”，如：“他/从/小学/毕业/后”

 **根据歧义字段的上下文来消歧**

2.2.1.2.2 分词方法

一般通过分词词典和分词规则库进行分词。主要方法有：
 正向最大匹配(FMM)或逆向最大匹配(RMM)

从左至右(FMM)或从右至左(RMM)，取最长的词
“幼儿园地节目”或“幼儿园地节目”

 双向最大匹配

分别采用FMM和RMM进行分词
如果结果一致，则认为成功；否则，采用消歧规则进行消歧（交集型歧义）：

 正向最大、逆向最小匹配

发现组合型歧义

 逐词遍历匹配

在全句中取最长的词，去掉之，对剩下字符串重复该过程

 设立切分标记

收集词首字和词尾字，把句子分成较小单位，再用某些方法切分

 全切分

获得所有可能的切分，选择最大可能的切分

2.2.1.2.3 基于规则的歧义字段消歧方法

 利用歧义字串、前驱字串和后继字串的句法、语义和语用信息：

句法信息

 “阵风”：根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”

语义信息

 “了解”：“他/学会/了/解/数学/难题”（“难题”一般是“解”而不是“了解”，另外，还有“学会”)

语用信息

 “拍卖”：“乒乓球拍卖完了”，要根据场景（上下文）来确定

 规则的粒度

基于具体的词（个性规则）
基于词类、词义类（共性规则）

Proj. 2 实现一个基于词典与规则的汉语自动分词系统。
(词典：)

三宝鸭

发布了81 篇原创文章 · 获赞 18 · 访问量 1万+

私信关注