关键词提取面临问题及挑战

现有问题与挑战

文章的关键词通常具有以下三个特点
1、 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。 2、相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。 3、覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。

从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:a.新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇(人艰不拆、可行可珍惜…)?b.关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;c.怎么计算候选词和文章之间的相关性?d.如何覆盖文章的各个主题?

目前,关键词自动标注方法分为两类:1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;2)关键词抽取,从文章的内容中抽取一些词语作为关键词。
关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。为了解决上述这些问题和挑战,我们设计了层次化关键词自动标注算法.

关于文本的关键词提取方法分为有监督、半监督和无监督三种:

这里是引用
https://zhuanlan.zhihu.com/p/33605700
在这里插入图片描述

无监督关键词抽取算法可以分为三大类,基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。

  • 基于统计特征的关键词抽取算法

    1) 基于词权重的特征量化
    基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等。
    2) 基于词的文档位置的特征量化
    这种特征量化方式是根据文章不同位置的句子对文档的重要性不同的假设来进行的。通常,文章的前N个词、后N个词、段首、段尾、标题、引言等位置的词具有代表性,这些词作为关键词可以表达整个的主题。
    3) 基于词的关联信息的特征量化
    词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、hits值、贡献度、依存度、TF-IDF值等。
    

比较有趣:AI领域TOP100知乎最受欢迎专栏文章–提取关键词和摘要展示https://zhuanlan.zhihu.com/p/32911340

发布了13 篇原创文章 · 获赞 1 · 访问量 1490

猜你喜欢

转载自blog.csdn.net/u010443559/article/details/101348692