1. 概述
- 强调对语言知识的理性整理(知识工程)
- 受计算语言学理论指导
- 基于规则的知识表示和推导(符号计算)
- 语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!
2. 词法分析
形态还原(针对英语、德语、法语等)
- 把句子中的词还原成它们的基本词形。
词性标注
- 为句子中的词标上预定义类别集合(标注集)中的类。
命名实体识别
- 人名
- 地名
- 机构名
分词(针对汉语、日语等)
- 识别出句子中的词。
2.1形态还原(英语)
把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。
构词特点
- 屈折变化:词尾和词形变化,词性不变。如:
study, studied,studied,studying
speak,spoke,spoken,speaking
- 派生变化:加前缀和后缀,词性发生变化。如:
friend,friendly,friendship,...
- 复合变化:多个单词以某种方式组合成一个词。
还原规则
-
通用规则:变化有规律
-
个性规则:变化无规律
2.1.1 形态还原规则举例
英语“规则动词”还原
-
*s -> * (SINGULAR3)
-
*es -> * (SINGULAR3)
-
*ies -> *y (SINGULAR3)
-
*ing -> * (VING)
-
*ing -> *e (VING)
-
*ying -> *ie (VING)
-
*??ing -> *? (VING)
-
*ed -> * (PAST)(VEN)
-
*ed -> *e (PAST)(VEN)
-
*ied -> *y (PAST)(VEN)
-
*??ed -> *? (PAST)(VEN)
英语不规则动词还原
-
went -> go (PAST)
-
gone -> go (VEN)
-
sat -> sit (PAST) (VEN)
2.1.2 形态还原算法
- 输入一个单词
- 如果词典里有该词,输出该词及其属性,转4,否则,转3
- 如果有该词的还原规则,并且,词典里有还原后的词,则输出还原后的词及其属性,转4,否则,调用<未登录词模块>
- 如果输入中还有单词,转(1),否则,结束。
Proj. 1 实现一个英语单词还原工具。
(词典:http://nlp.nju.edu.cn/MT_Lecture/dic_ec.rar)
2.2 词性标注
为句子中的词标上预定义类别集合(标注集)中的类(词性),为后续的句法/语义分析提供必要的信息。
标注体系的确定
标注方法
2.2.1 词性标注体系
词的分类
- 按形态和句法功能(句法相关性)
- 按表达的意思(语义相关性)
- 兼顾上述二者
2.2.1.1 英文词的分类
开放类(open class)
- Nouns
句法上:可作物主、可有限定词、有复数形式
语义上:人名、地名和物名
- Verbs
句法上:作谓语、有几种词形变化
语义上:动作、过程(一系列动作)
- Adjectives
句法上:修饰Nouns等
语义上:性质
- Adverbs
句法上:修饰Verbs等
语义上:方向、程度、方式、时间
封闭类(closed class,function words)
- Determiners
- Pronouns
- Prepositions
- Conjunctions
- Auxiliary verbs
- Particles(if、not、…)
- Numerals
2.2.1.2 汉语分词(切分)
词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。
分词是指根据某个分词规范,把一个“字”串划分成“词”串。
-
问题:难以确定何谓汉语的“词”
1.单字词与语素的界定:猪肉、牛肉
2.词与短语(词组)的界定:黑板、黑布 -
信息处理用现代汉语分词规范:GB-13715(1992)
-
具体应用系统可根据各自的需求制定规范
分词带来的问题
- 丢失信息、错误的分词、不同的分词规范
2.2.1.2.1切分歧义及歧义字段的种类
交集型歧义字段
-
ABC切分成AB/C或A/BC
如:“和平等” “独立/自主/和/平等/独立/的/原则” “讨论/战争/与/和平/等/问题”
组合型歧义字段
-
AB切分成AB或A/B
如:“马上” “他/骑/在/马/上” “马上/过来”
混合型歧义
-
由交集型歧义和组合型歧义嵌套与交叉而成
如:“得到达”(交集型、组合型) “我/今晚/得/到达/南京” “我/得到/达克宁/了 ” “我/得/到/达克宁/公司/去”
伪歧义与真歧义
-
伪歧义字段指在任何情况下只有一种切分
“挨批评”只有一种切分 根据歧义字段本身就能消歧
-
真歧义字段指在不同的情况下有多种切分
“从小学”可以有多种切分:
“从小/学” ,如:“从小/学/电脑” (“从小”是切分成“从小”还是“从/小”要根据分词规范!)
“从/小学”,如:“他/从/小学/毕业/后”
**根据歧义字段的上下文来消歧**
2.2.1.2.2 分词方法
一般通过分词词典和分词规则库进行分词。主要方法有:
正向最大匹配(FMM)或逆向最大匹配(RMM)
-
从左至右(FMM)或从右至左(RMM),取最长的词
-
“幼儿园 地 节目”或“幼儿 园地 节目”
双向最大匹配
-
分别采用FMM和RMM进行分词
-
如果结果一致,则认为成功;否则,采用消歧规则进行消歧(交集型歧义):
正向最大、逆向最小匹配
- 发现组合型歧义
逐词遍历匹配
- 在全句中取最长的词,去掉之,对剩下字符串重复该过程
设立切分标记
- 收集词首字和词尾字,把句子分成较小单位,再用某些方法切分
全切分
- 获得所有可能的切分,选择最大可能的切分
2.2.1.2.3 基于规则的歧义字段消歧方法
利用歧义字串、前驱字串和后继字串的句法、语义和语用信息:
-
句法信息
“阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”
-
语义信息
“了解”:“他/学会/了/解/数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”)
-
语用信息
“拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定
规则的粒度
-
基于具体的词(个性规则)
-
基于词类、词义类(共性规则)
Proj. 2 实现一个基于词典与规则的汉语自动分词系统。
(词典:)