经典检索模型——向量空间模型（VSM）的简单理解

笔者在课后作业中遇到了向量空间模型的概念题，对课堂重温后有了一些简单的理解，在此分享。

向量空间模型（VSM）

向量空间模型（Vector Space Model，VSM），是基于代数的一种常用模型。向量空间模型试图克服布尔模型的缺陷，它采用非布尔向量来表示文档和查询，采用非二值实数表示相似度，这样输出结果就可以按照文档和查询的相似程度来进行排序了，客观上实现了部分匹配。

采用向量空间模型最明显的效果就是能提供排序的结果集，这个结果集比通过布尔模型得到的结果集要合理得多，从某种意义上说，能更好地匹配用户的信息需求。

TF-IDF方法

在相似度量上常用TF-IDF权重方法：
TF 因子 (term frequency, 词频)，文档dj中的词ki出现的频率。
在这里插入图片描述

IDF因子 (inverse document frequency ,逆向文件频率)，文档集合中词ki出现的频率的倒数。
在这里插入图片描述

课后问题问及了TF的归一化与IDF取对数的目的，解答这个需要首先理解TF-IDF的含义：
① TF代表了一个词项在一篇文档中的“重要性”，和它在该文档中出现的次数成正比（局部），和它在文档集合中涉及文档的个数成反比（全局）；
② IDF可以区别两个文档对同一个查询的相关程度，共有词（频）越多，则相关程度应该越高（同一性强）；如果一个共有词在文档集合中出现得很普遍，则由它反映的相关程度应该越低（区分性差）。

因此，TF（词频）经常会被归一化（一般是词频除以文章总词数），目的是防止它偏向长的文档。因为同一个词语，在长的文档中要比短的文档具有更高的词频，从而淡化它的重要性。
而IDF（逆向文件频率）取对数是为了降低IDF相对于TF的效果。

向量空间模型的假设前提

另一个问题是VSM模型所隐含的假设条件，这个假设条件就是词与词（特征项）之间的不相关性。
首先向量空间模型通常用多个特征项（关键词）来作为向量维度，为了保证维度不过大，特征项需要满足相互之间的独立不相关，这也导致了向量空间模型无法进行语义、语境相关的判断。向量空间模型的缺点也就在于关键词之间的线性无关的假说前提。

秃头指非官

发布了5 篇原创文章 · 获赞 7 · 访问量 871

私信关注