NLP-分词、词性标注及命名实体识别(一):概念及jieba使用解析

一、分词

      中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字符按照一定的规范重新组合成次序的过程。

二、词性标注

      词性标注(Part-of-Speech tagging或POS tagging),又称词类标注或简称标注,是指分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。只需选取最高频词性,即可实现80%准确率的中文词性标注程序。以jieba为例:

1)Ag 形语素,形容词代码为a,语素代码g前面质以A。

2)a 形容词,取英语形容词adjective的第一个字母。

3)ad 副形词,直接作状语的形容词。形容词代码a和副词代码d并在一起。

4)an,名形词,具有名词功能的形容词,形容词代码a和名词代码n并在一起。

4)v,动词,取英语动词verb的第一个字母。

5)vd,副动词,直接做状语的动词。动词和副动词的代码并在一起。

6)vn,名动词,指具有名词功能的动词。动词和名词的代码并在一起。

7)w,标点符号

8)x,非语素字,非语素字只是一个符号,字母x通常用于代表未知数、符号。

中文/n 分词/n 是/v 其他/p 中文/n 信息/n 处理/v 的基础。

三、命名实体识别(Named Entity Recognition,NER)

       又称“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。一般来说,命名实体识别任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)实体名。

在不同项目中,命名实体类别具有不同的定义。

四、jieba使用情况解析

-----------------(后续会在接着更新)-----------------

猜你喜欢

转载自blog.csdn.net/qq_35495233/article/details/86507157