第一节 自然语言处理概论

Bill Manaris关于自然语言处理提出:

  研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种使用系统,并探讨这些实用系统的评测技术。

研究自然语言处理的意义:

  从科学研究的角度,探寻人类通过语言来交互信息的奥秘,更好地理解语言本身的内在规律。

两类不同的语言处理模型:

  能力模型:(Noam Chomsky-美国语言学家,转换-生成语法创始人)基于语言学规则的模型,假设人脑中先天就存在语法通则,这种先天的存在能够通过人类遗传给后代,总之与生俱来,所以构建这种模型只需把人脑的这种语法通则构造出来即可理解语言。

  应用模型:根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。又称“经验主义的”语言模型。其建模步骤为:通过大规模真实语料库,获得语言各级语言单位上的统计信息;依据较低级语言单位上的统计信息,运用相关的统计推理技术计算较高级语言单位上的的统计信息。

规则与统计相结合——解决相应问题

评测技术是自然语言处理的重要研究专题之一,是国际公认的自然语言处理研究的竞技场。

自然语言处理:人工智能和语言学的交叉学科,研究自然语言的自动生成与理解。(定义不严谨)——注意引用权威文献

自然语言处理是人工智能和应用语言学的重要分支,与其相关的学科有:语言学、计算机科学、数学、认知心理学、信息论、声学(语音识别、语音合成)、……

自然语言处理相关术语:中文信息处理、中文语言处理、计算语言学、自然语言理解、智能化人机接口、……

自然语言处理的知识内容:基础、应用、资源、评测;

自然语言处理的基础内容:音位学->形态学->词汇学->句法学<-语用学<-语义学

  音位学:描述音位的结合规律,说明音位怎样形成语素;"delete file x"-->"dilet'#fail#eks"(音解串)

  形态学:研究语素的结合规律,说明语素怎样形成单词;"dilet'#fail#eks"-->"delete" "file" "x"(单词)

  词汇学:描述词汇系统的规律,说明单词本身固有的语义特性和语法特性;"delete" "file" "x"-->("delete" VERB)("file" NOUN)("x" ID)(加注了词性——语法特性)

  句法学:描述单词或词组之间的结构规则,说明单词或词组怎样构成句子;("delete" VERB)("file" NOUN)("x" ID)-->句法树(见下图)

  语义学:描述句子中各个成分之间的语义关系,以及怎样从构成句子的各个成分推导出整个句子的语义。句法树(见下图)-->"delete-file('x')"

  语用学:

             

自然语言处理的应用内容:(如上图所示)

自然语言处理的资源内容:(常用的中文资源有)

  北京大学人民日报语料库(经过精确的词性标注的语料库--中文研究比较完备的语料库);

  《现代汉语语法信息词典》-北京大学计算语言研究所(5-6万的汉语常用词汇逐个给出了其语法的相关标注,以及相关的文法规则);

  概念层次网络:中科院信息所的独创的纯正中国风格的概念层次网络理论;

  知网:计算机应用的大型的中文语义词典

***提出新理论:①能够被大家所理解;②说清楚它和其他理论的关系。

自然语言处理的评测内容:对自然语言处理的各方面应用作出合理评价,其组成部分有:

  评测方法:各个领域有其特有的评测方法;

  评测对象:评测的是什么,速度、精度、适用范围;

  评测量度:精确度、召回率、综合反映精确度和召回率的f量度、平均准确率、平均准确噪数。

中文语言处理的发展概况:

  从汉字信息处理到汉语信息处理;如汉字排版系统(汉字信息处理)  

    汉语信息处理:

      词处理:研究内容包括(分词、词性标注、名实体识别、词义消歧);

      语句处理:研究内容包括(句法分析,语义分析等)、应用包括(音字转换、文本校对、语音合成、机器翻译);

      篇章处理:研究内容包括(文摘等的应用,如单文档文摘、多文档文摘等等)。

      信息抽取、问答系统等  

      统计与规则结合的汉语词法分析技术,也涉及到语法分析部分内容

  从单机信息处理到网络信息处理。

中文的主要特点:(与英语相比较)

  汉语是大字符集的意音文字;

  汉语词与词之间没有空格;

  汉语的同义、同音词比较多;(大挑战)

  汉语没有形态变化。

中文语言处理发展的主要困难:

  汉语的语法研究尚未规范化;

  汉语的语言学知识的量化与形式化的工作滞后;

  中文语言处理研究力量分散;

  科学的评测机制尚未建立;

自然语言处理的主要课题:

  基础理论:概率与统计理论、统计机器学习理论、人工智能基本理论、认知科学理论;

  人工智能理论:组合优化算法,逻辑相关方法;

  认知科学理论:

  词法分析主要研究课题:分词、词性标注、命名实体识别、新词发现;

  句法分析主要研究课题:上下文无关文法(概率);

  语义分析主要研究课题:语义表示、概念语义网络、词义消歧;

  语用分析主要研究课题:自然语言生成、语段分析/对话、机器翻译;

自然语言处理的主要应用:

  语音识别、信息检索、文摘、问答、对话机器人、机器翻译、文本校对、生物信息学

猜你喜欢

转载自www.cnblogs.com/han-bky/p/10078484.html
今日推荐