大数据课程K10——Spark的Vector_Space_Model算法

文章作者邮箱:[email protected]              地址:广东惠州

 ▲ 本章节目的

⚪ 掌握Spark的 Vector Space Model 向量空间模型算法;

⚪ 掌握Spark的向量之间夹角余弦;

一、Vector Space Model 向量空间模型算法

1. 概述

向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于文本检索系统。

VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

M个无序特征项ti,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较

向量空间模型 (或词组向量模型) 是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。

此算法可以用于文档排名,学习此算法需要具备3个基础:

1. 倒排索引表。

2. 相似度的概念。

3. TF-IDF算法。

正向索引:文档 ->词汇的索引,比如:

1.txt -> hello 2; spark 5; AI 1;

2.txt -> world 1; hadoop 6;

... ...

方向索引(倒排索引):词汇 -> 文档的索引,比如:

hello -> 1.txt 2; 3.txt 10;

spark -> 1.txt 5; 4.txt 7;

猜你喜欢

转载自blog.csdn.net/u013955758/article/details/132438313