中文词性标注学习笔记(三)---词性标注

词性标注

词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。

词性标注的原因

词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。

标注方法

词性标注这里基本可以照搬分词的工作,在汉语中,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。
主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:
(1)基于最大熵的词性标注

(2)基于统计最大概率输出词性

(3)基于HMM的词性标注

词性标注的应用

(1)句法分析预处理

(2)词汇获取预处理

(3)信息抽取预处理

汉语词性对照表

汉语词性对照表

学习心得

中文词性标注的关键在于先学会分词,然后要去理解语句中词的词性,并且要熟记每种词性对应的代码,然后进行标注。
这是一个熟能生巧的过程!

相关学习链接

https://blog.csdn.net/sinat_33741547/article/details/78894163
https://www.biaodianfu.com/pos-tagging-set.html
http://ssvideo.superlib.com/cxvideo/play/page?sid=1586&vid=28440&d=77edee6d216507e5ece667cef95799ea&cid=236

发布了24 篇原创文章 · 获赞 11 · 访问量 3225

猜你喜欢

转载自blog.csdn.net/qq_44292472/article/details/98496726
今日推荐