NLP的典型运用
- 机器翻译
- 自动摘要
- 文本分类和信息过滤
- 信息检索
- 自动问答
- 信息抽取与文本挖掘
- 情感分析
- …
机器翻译(Machine Translation)
自动摘要(Text Summarization)
文本分类(Text Classification)
信息检索(Information Retrieval,IR)
自动问答(Question Answering,QA)
信息抽取(Information Extraction, IE)
情感分析(Sentiment Analysis 或 Opinion Analysis)
1. 自然语言处理的基本任务
语言分析: 分析语言表达的结构和含义
-
词法分析: 形态还原、词性标注、命名实体(人名、地名、机构名)识别、分词(汉语、日语等)等
-
句法分析: 组块分析、结构分析、依存分析
-
语义分析: 词义、句义(逻辑、格关系、…)、篇章(上下文)(指代、实体关系、…)
语言生成: 从某种内部表示生成语言表达
- 词、句子、篇章的生成
多语言处理(机器翻译、跨语言检索): 语言之间的对应、转换
不同的应用对上述任务有不同的要求。
2. 自然语言处理的实现方法
基于规则的理性方法(Rationalist approach)
- 基于以规则形式表达的语言知识(词、句法、语义以及转换、生成)进行符号推理,从而实现信息处理。
- 强调人对语言知识的理性整理。
- 受Chomsky主张的人具有先天语言能力观点的影响,主宰1960-1985
基于语料库的经验方法(Empiricist approach)
- 以大规模语料库(单语和双语)为语言知识基础。
- 利用统计学习和基于神经网络的深度学习方法自动获取隐含在语料库中的知识,学习到的知识体现为一系列模型参数。
- 基于学习到的参数和相应的模型进行语言信息处理
混合方法
- 理性方法的优、缺点
1.相应的语言学理论基础好
2.语言知识描述精确
3.处理效率高
4.知识获取困难(高级劳动)
5.系统鲁棒性差:不完备的规则系统将导致推理的失败
6.知识扩充困难,很难保证规则之间的一致性
- 经验方法的优、缺点
1.知识获取容易(低级劳动)
2.系统鲁棒性好:概率大的作为结果
3.知识扩充容易、一致性容易维护
4.相应的语言学理论基础差
5.缺乏对语言学知识的深入描述和利用,过于机械
6.处理效率低
- 利用各家之长,相互融合?
3. 自然语言的分类(基于形态结构)
分析型语言
- 没有或很少有词形变化
- 没有表示词的语法功能的附加成分,由词序和虚词表示词之间的语法关系
- 如:汉语
黏着型语言
- 有词形变化
- 词的语法意义(功能)由附加成分表达
- 如:日语
屈折型语言
- 有词形变化
- 词的语法意义由词的形态变化来表示
- 如:英语
另外,还可以按SVO型(主-动-宾)、VSO型(动-主-宾)和SOV 型(主-宾-动) 分类
4. 自然语言处理的难点
歧义处理
- 有限的词汇和规则表达复杂、多样的对象
语言知识的表示、获取和运用
成语和惯用型的处理
对语言的灵活性和动态性的处理
- 灵活性:同一个意图的不同表达,甚至包含错误的语法等
- 动态性:语言在不断的变化,如:新词等
上下文和常识知识(与语言无关)的利用和处理
5. 汉语处理的难点
缺乏计算语言学的句法/语义理论,大都借用基于西方语言的句法/语义理论
词法分析
- 分词
- 词性标注难
句法分析
-
主动词识别难(特别对于流水句)
-
词法分类与句法功能对应差(例如:他喜欢走)
语义分析
-
句法结构与句义对应差(例如:老头晒太阳)
-
时体态确定难 (汉语无形态变化)
资源(语料库)缺乏
6. 自然语言处理所涉及的学科
语言学:各种语法、语义理论
计算机科学(包括人工智能、机器学习)
数学:逻辑、概率与统计、信息论等
哲学(认知学)
心理学
…