聊聊搜索算法中常见的词项提取方法——TFIDF

作者:禅与计算机程序设计艺术

1.简介

随着互联网信息量的日益增长、海量数据集的出现、人们对信息检索能力要求越来越高,各类搜索引擎的功能也越来越强大。为了更好地满足用户的各种信息查找需求,搜索算法也逐渐变得复杂而多样。其中,词项提取(Term Extraction)是搜索引擎中一个重要的组成部分。
  词项提取又称为文档表示学习(Document Representation Learning),它是将文档转换为计算机易于处理的向量或特征表示形式的过程。词项提取的主要目的是从文本中抽取出重要的词、短语或者模式作为索引关键字。通过词项提取,可以降低查询时间,提高信息检索效率;还可以加速文本分析任务,提升数据挖掘、机器学习等领域的应用性能。

2.词项提取方法

2.1 TF-IDF词频/逆文档频率模型

2.1.1 术语说明

在词项提取方法中,最常用的方法就是基于词频/逆文档频率(TF-IDF)模型。这是一种统计方法,用来评价某个词语对于一份文档的重要程度。TF-IDF模型把每一个词的权重定性考虑了进去,能够对文档中的每个词赋予一个权重,这个权重表示了一个词在一份文档中所占的重要性。

2.1.2 公式推导

(1)tf:词频/次数

tf(t,d)=count(t in d)/max{count(w in d):w is a word}
即在一篇文档d中词t出现的次数/最大词汇个数

(2ÿ

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132053408