统计自然语言处理(第二版)笔记1

第一章绪论

1.1基本概念

1.1.1语言学与语音学

语言学(linguistics)是指对语言的科学研究。

语音学(phonetics)是研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。

为了避免这种名称上的差异可能给人们造成的错觉,一些聪明的外国人采用一种折中的办法,用复数的“语言科学(linguisticsciences)”来作为整个学科的统称,既包括语言学,也包括语音学。在本书中,我们愿意沿用这种复数的语言科学名称。

1.1.2自然语言处理

自然语言处理(naturallanguageprocessing,NLP)也称自然语言理解(naturallanguageunderstanding,NLU),从人工智能研究的一开始,它就作为这一学科的重要研究内容探索人类理解自然语言这一智能行为的基本方法。

从术语的字面上来看,似乎“计算语言学”更侧重于计算方法和语言学理论等方面的研究,而“自然语言理解”更偏向于对语言认知和理解过程等方面问题的研究,相对而言,“自然语言处理”包含的语言工程和应用系统实现方面的含义似乎更多一些,但是,在很多情况下我们很难绝对地区分开“计算语言学”、“自然语言理解”与“自然语言处理”三个术语之间到底存在怎样的包含或重叠关系以及各自不同的内涵和外延。因此,很多人在谈到“计算语言学”、“自然语言理解”或“自然语言处理”这些术语时,往往默认为它们是同一个概念,至少在其外延上不再细究其差异。

1.1.3关于理解的的标准

人们在自然语言处理领域研究的任何一个应用系统都可以拿来做图灵测试。按照人的标准对这些系统的输出结果进行评价,从而判断计算机系统是否达到了“理解”的效果。显然,被测试系统所表现出来的性能反映了计算机系统的“理解”能力。因此,我们从事自然语言理解研究的任务也就是研究和探索针对具体应用目的的新方法和新技术,使实现系统的性能表现尽量符合人类理解的标准和要求。

1.2自然语言处理研究的内容和面临的困难

1.2.1自然语言处理研究的内容

自然语言处理研究的内容十分广泛,根据其应用目的不同,我们可以大致列举如下一些研究方向:
(1)机器翻译(machinetranslation,MT):实现一种语言到另一种语言的自动翻译。
(2)自动文摘(automaticsummarizing或automaticabstracting):将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
(3)信息检索(informationretrieval信息检索也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索(crosslanguage/trans-lingualinformationretrieval)。

(4)文档分类(documentcategorization/classification):文档分类也称文本分类(textcategorization/classification)或信息分类(informationcategorization/classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。

(5)问答系统(question-answeringsystem):通过计算机系统对用

户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求

解答案并做出相应的回答。问答技术有时与语音技术和多模态输入、输

出技术,以及人-机交互技术等相结合,构成人-机对话系统(humancomputerdialoguesystem)。

(6)信息过滤(informationfiltering):通过计算机系统自动识别

和过滤那些满足特定条件的文档信息。通常指网络有害信息的自动识别

和过滤,主要用于信息安全和防护、网络内容管理等。

(7)信息抽取(informationextraction):指从文本中抽取出特定的

事件(event)或事实信息,有时候又称事件抽取(eventextraction)。

(8)文本挖掘(textmining):有时又称数据挖掘(data

mining),是指从文本(多指网络文本)中获取高质量信息的过程。

(9)舆情分析(publicopinionanalysis):舆情是指在一定的社会

空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者

产生和持有的社会政治态度.

(10)隐喻计算(metaphoricalcomputation):“隐喻”就是用乙事物

或其某些特征来描述甲事物的语言现象[周昌乐,2009]。简要地讲,

隐喻计算就是研究自然语言语句或篇章中隐喻修辞的理解方法。

(11)文字编辑和自动校对(automaticproofreading):对文字拼

写、用词,甚至语法、文档格式等进行自动检查、校对和编排。

(12)作文自动评分:对作文质量和写作水平进行自动评价和打

分。

(13)光读字符识别(opticalcharacterrecognition,OCR):通过计

算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可

以处理的电子文本,简称字符识别或文字识别。相对而言,文字识别研

究的主要内容更多地属于字符(汉字)图像识别问题,通常被看作是一

个模式识别问题,但作者认为,对于一个高性能的文字识别系统而言,

如果没有任何自然语言理解技术的参与是不可想像的。

(14)语音识别(speechrecognition):将输入计算机的语音信号

识别转换成书面语表示。语音识别也称自动语音识别(automaticspeech

recognition,ASR)。

(15)文语转换(text-to-speechconversion):将书面文本自动转换

成对应的语音表征,又称语音合成(speechsynthesis)。

(16)说话人识别/认证/验证(speaker

recognition/identification/verification):对一说话人的言语样本做声学分

析,依此推断(确定或验证)说话人的身份。

1.2.2自然语言处理涉及的几个层次

如果撇开语音学研究的层面,自然语言处理研究的问题一般会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。

形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。

语法学(syntax):研究句子结构成分之间的相互关系和组成句子序列的规则。其关注的中心是:为什么一句话可以这么说,也可以那么说?

语义学(semantics):是一门研究意义,特别是语言意义的学科.其重点在探明符号与符号所指的对象之间的关系,从而指导人们的言语活动。它所关注的重点是:这个语言单位到底说了什么?

语用学(pragmatics):是现代语言学用来指从使用者的角度研究语言,特别是使用者所作的选择、他们在社会互动中所受的制约、他们的语言使用对信递活动中其他参与者的影响。

1.2.3自然语言处理面临的困难

需要解决的关键问题就是歧义消解(disambiguation)问题和未知语言现象的处理问题。一方面,自然语言中大量存在的歧义现象,无论在词法层次、句法层次,还是在语义层次和语用层次,无论哪类语言单位,其歧义性始终都是困扰人们实现应用目标的一个根本问题。另一方面,对于一个特定系统来说,总是有可能遇到未知词汇、未知结构等各种意想不到的情况,而且每一种语言又都随着社会的发展而动态变化着,新的词汇(尤其是一些新的人名、地名、组织机构名和专用词汇)、新的词义、新的词汇用法(新词类),甚至新的句子结构都在不断出现,尤其在口语对话或计算机网络对话(、微博、博客等中,稀奇古怪的词语和话语结构更是司空见惯。

1.3自然语言处理的基本方法及其发展

1.3.1自然语言处理的基本方法

自然语言处理中存在着两种不同的研究方法,一种是理性主义(rationalist)方法,另一种是经验主义(empiricist)方法。

理性主义方法主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序,系统根据规则和程序,将自然语言理解为符号结构——该结构的意义可以从结构中的符号的意义推导出来。按照这种思路,在自然语言处理系统中,一般首先由词法分析器按照人编写的词法规则对输入句子的单词进行词法分析,然后,语法分析器根据人设计的语法规则对输入句子进行语法结构分析,最后再根据一套变换规则将语法结构映射到语义符号(如逻辑表达式、语义网络、中间语言等)。

而经验主义的研究方法也是从假定人脑所具有的一些认知能力开始的。因此,从这种意义上讲,两种方法并不是绝对对立的。但是,经验主义的方法认为人脑并不是从一开始就具有一些具体的处理原则和对具体语言成分的处理方法,而是假定孩子的大脑一开始具有处理联想(association)、模式识别(patternrecognition)和通用化(generalization)处理的能力,这些能力能够使孩子充分利用感官输入来掌握具体的自然语言结构。在系统实现方法上,经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。因此,经验主义的自然语言处理方法是建立在统计方法基础之上的,因此,我们又称其为统计自然语言处理(statisticalnaturallanguageprocessing)方法。

在统计自然语言处理方法中,一般需要收集一些文本作为统计模型建立的基础,这些文本称为语料(corpus)。经过筛选、加工和标注等处理的大批量语料构成的数据库叫做语料库(corpusbase)。由于统计方法通常以大规模语料库为基础,因此,又称为基于语料(corpusbased)的自然语言处理方法。

1.3.2自然语言处理的发展

回顾自然语言处理技术半个多世纪的发展历程,认为这一领域的研究取得了两点重要认识,即:①对于句法分析,基于单一标记的短语结构规则是不充分的;②短语结构规则在真实文本中的分布呈现严重的扭曲。换言之,有限数目的短语结构规则不能覆盖大规模真实语料中的语法现象,这与原先的预期大相径庭。NLP技术的发展在很大程度上受到这两个事实的影响。从这个意义上说,本领域中称得上里程碑式的成果有三个:①复杂特征集和合一语法的提出;②语言学研究中词汇主义的建立;③语料库方法和统计语言模型的广泛运用。大规模语言知识的开发和自动获取成为目前NLP技术的瓶颈问题。因此,语料库建设和统计学理论将成为该领域中研究的关键课题。实际上,近几年来在众多词汇资源的开发过程中,语料库和统计学方法发挥了很大的作用,这也是经验主义方法和理性主义方法相互融合的可喜开端。

1.4自然语言处理的研究现状

自然语言处理研究已经取得了丰硕成果,同时也面临着许多新的挑战。无论如何,我们在评价任何一门学科和技术的时候,既不应该因为它所取得的成绩而忽略了问题的存在,也不应该因为问题的存在而全盘否定这门学科的发展。对于评价自然语言处理这门学科更是如此,因为实际上对于自然语言处理的很多问题,具有高度智慧的人类本身解决起来都不能达到非常准确、满意的程度,甚至无法清楚地知道人脑处理这些问题的具体过程,那么,在目前对自然语言处理的一些具体技术提出过高的要求显然没有太多的道理,给予太多的批评和指责也是不公正的。比如说,在现阶段过高地要求机器翻译系统的译文质量和信息抽取系统的准确率等,都是不现实的。相反,这些技术在实际应用中已经在一定程度上为我们提供了很大的帮助和便利。当然,我们并不是不允许人们对某一项技术提出更高的要求和希望,重要的是应该如何建立有效的理论模型和实现方法。这也是自然语言处理这门学科所面临的问题和挑战。

 

猜你喜欢

转载自www.cnblogs.com/romangao/p/10664563.html