经典检索模型——向量空间模型(VSM)的简单理解

笔者在课后作业中遇到了向量空间模型的概念题,对课堂重温后有了一些简单的理解,在此分享。

向量空间模型(VSM)

向量空间模型(Vector Space Model,VSM),是基于代数的一种常用模型。向量空间模型试图克服布尔模型的缺陷,它采用非布尔向量来表示文档和查询,采用非二值实数表示相似度,这样输出结果就可以按照文档和查询的相似程度来进行排序了,客观上实现了部分匹配。

采用向量空间模型最明显的效果就是能提供排序的结果集,这个结果集比通过布尔模型得到的结果集要合理得多,从某种意义上说,能更好地匹配用户的信息需求。

TF-IDF方法

在相似度量上常用TF-IDF权重方法:
TF 因子 (term frequency, 词频),文档dj中的词ki出现的频率。
在这里插入图片描述

IDF因子 (inverse document frequency ,逆向文件频率),文档集合中词ki出现的频率的倒数。
在这里插入图片描述

课后问题问及了TF的归一化与IDF取对数的目的,解答这个需要首先理解TF-IDF的含义:
TF代表了一个词项在一篇文档中的“重要性”,和它在该文档中出现的次数成正比(局部),和它在文档集合中涉及文档的个数成反比(全局);
IDF可以区别两个文档对同一个查询的相关程度,共有词(频)越多,则相关程度应该越高(同一性强);如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差)。

因此,TF(词频)经常会被归一化(一般是词频除以文章总词数),目的是防止它偏向长的文档。因为同一个词语,在长的文档中要比短的文档具有更高的词频,从而淡化它的重要性。
而IDF(逆向文件频率)取对数是为了降低IDF相对于TF的效果。

向量空间模型的假设前提

另一个问题是VSM模型所隐含的假设条件,这个假设条件就是词与词(特征项)之间的不相关性
首先向量空间模型通常用多个特征项(关键词)来作为向量维度,为了保证维度不过大,特征项需要满足相互之间的独立不相关,这也导致了向量空间模型无法进行语义、语境相关的判断。向量空间模型的缺点也就在于关键词之间的线性无关的假说前提。

发布了5 篇原创文章 · 获赞 7 · 访问量 871

猜你喜欢

转载自blog.csdn.net/qq_40340478/article/details/104664566