文章作者邮箱:[email protected] 地址:广东惠州
▲ 本章节目的
⚪ 掌握Spark的 Vector Space Model 向量空间模型算法;
⚪ 掌握Spark的向量之间夹角余弦;
一、Vector Space Model 向量空间模型算法
1. 概述
向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
M个无序特征项ti,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较
向量空间模型 (或词组向量模型) 是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。
此算法可以用于文档排名,学习此算法需要具备3个基础:
1. 倒排索引表。
2. 相似度的概念。
3. TF-IDF算法。
正向索引:文档 ->词汇的索引,比如:
1.txt -> hello 2; spark 5; AI 1;
2.txt -> world 1; hadoop 6;
... ...
方向索引(倒排索引):词汇 -> 文档的索引,比如:
hello -> 1.txt 2; 3.txt 10;
spark -> 1.txt 5; 4.txt 7;