《NLP汉语自然语言处理原理与实践》学习一

中文语言的机器处理

直观上,一个自然语言处理系统最少三个模块:语言的解析、语义的理解及语言的生成。

计算机处理自然语言最早应用在机器翻译上,此后在信息检索、信息抽取、数据挖掘、舆情分析、文本摘要、自动问答系统等方面都获得了很广泛的应用。虽然已经产生了许多专业技术作用域语言理解的不同层面和不同任务,例如,这些技术包括完全句法分析、浅层句法分析、信息抽取、词义消歧、潜在语义分析、文本蕴含和指代消解,但是还不能完美或完全地译解出语言的本义。

命名实体识别:主要用来识别语料中专有名词和未登录词的成词情况,如人名、地名

组织机构名称等,也包括一些特别的专名。准确的命名实体识别一准确的分词和词性标注为前提。

语义组块:用来确定一个以上的词汇构成的短语结构,即短语级别的标注,主要识别名词性短语、动词性短语、介词性短语等,以及其他类型的短语结构。语义组块的自动识别来源于中文分词、词性标注和命名实体识别的共同信息。语义组块的识别特征必须包含中文分词和词性标注两部分。

语义角色标注:以句子中的谓语动词为中心预测出句子中各个语法成分的语义特征,是句子解析的最后一个环节,也是句子级别研究的重要里程碑。语义角色标注直接受到句法解析和语义组块的影响。

词性标注(Part-of-Speech Tagging 或POS Tagging):又称为词类标注,是指判断出在一个句子中每个词所扮演的语法角色。例如:表示人、事物、地点等的名称为名词,表示动作或状态变化的词为动词等。一个词可能具有多个词性。一般而言,中文的词性标注算法比较同意,大多数使用隐马尔科夫模型(HMM)或最大熵算法,如结巴分词的词性标注。为了获得更高的精度,也有使用条件随机场(CRF)算法的,如LTP3.3 中的词性标注。中文词性标签有两大类:北大词性标注集和宾州词性标注集。

句法分析:是根据给定的语法体系自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系,将句子转化为一棵结构化的语法树。目前句法分析有两种不同的理论:一种是短语结构语法,另一种是依存语法。

 

哈工大NLP平台

哈工大语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心研发的一整套中文语言处理系统。语言技术平台包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标准等丰富、高效、精准的自然语言处理技术,还可以通过可视化的图形输出,使用户一目了然。(P-10)

Stanford NLP 团队

斯坦福自然语言处理团队(http://nlp.stanford.edu/)是一个由斯坦福大学的教师、科研人员、博士后、程序员组成的团队。该团队致力于研究计算机理解人类语言的工作,涵盖诸如句子的理解、机器翻译、概率解析和标注、生物医学信息抽取、语法归纳、词义消歧、自动问答及文本区域到3D场景的生成等。

在某些中文NLP应用中局域卓越的性能,一些主要的中文NLP应用如下:

(1)斯坦福句法解析器

概率自然语言句法解析器包括PCFG(与概率的上下文无关的短语)和依存句法解析器,一个词汇的PCFG解析器,以及一个超快速的神经网络的依存句法解析器和深度学习重排序器。在线句法分析器演示:http://nlp.stanford.edu:8080/parser/index.jsp

(2)斯坦福命名实体识别器

该识别器基于条件随机场序列模型,用于英文、中文、德文、西班牙文的连同命名实体识别、以及一个在线NER演示。

(3)斯坦福词性标注器

基于最大熵(CMM)算法、词性标注(POS)系统包括英语、阿拉伯语、汉语、法语、德语和西班牙语。

(4)斯坦福分析器

基于CRF算法的分词器,支持阿拉伯语和汉语

猜你喜欢

转载自blog.csdn.net/u014769320/article/details/82559220
今日推荐