中文命名实体识别

命名实体识别(Named Entity Recognition)

    命名实体识别是NLP里一项很基础的任务,就是从文本中识别出命名性指称项,为关系抽取等任务做铺垫。狭义上,是识别出人名、地名和组织机构名这三类命名实体(时间、货币名称等构成规律明显的实体类型可以用正则等方式识别)。当然,在特定领域中,会相应地定义领域内的各种实体类型。

中文命名实体识别的难点:

1.中文文本不像英文有空格作为词语的界限标志,而且中文词的概念很模糊,也不具备英文中的字母大小写等形态指示

2.中文的用字灵活多变,有些词语在脱离上下文语境的情况下无法判断是否是命名实体,而且就算是命名实体,当其处在不同的上下文语境下也可能是不同的实体类型

3.命名实体存在嵌套现象,如“北京大学第三医院”这一组织机构名中还嵌套着同样可以作为组织机构名的“北京大学”,而且这种现象在组织机构名中尤其严重

4.中文里广泛存在简化表达现象,如北京大学,简称北大。

1.基于规则的方法

根据对数据的了解,利用规则匹配来识别出命名实体。例如,文本中提到“说”、“老师”等词语可作为人名的下文,“地铁站”、‘大厦’可以做地名的下文,还可以利用词性,句法结构等。如果要做其他语言的实体识别,还需要注意语法结构不同,那么识别规则也不尽相同。此外,构建规则的过程费时费力、可移植性不好。

2.判别式模型--CRF

3.BILSTM+CRF模型

猜你喜欢

转载自blog.csdn.net/sinat_40641604/article/details/103627277
今日推荐