大数据课程K10——Spark的Vector_Space_Model算法

业界资讯 2023-09-12 00:11:49 阅读次数: 0

文章作者邮箱：[email protected] 地址：广东惠州

▲ 本章节目的

⚪ 掌握Spark的 Vector Space Model 向量空间模型算法；

⚪ 掌握Spark的向量之间夹角余弦；

一、Vector Space Model 向量空间模型算法

1. 概述

向量空间模型（VSM：Vector Space Model）由Salton等人于20世纪70年代提出，并成功地应用于文本检索系统。

VSM概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

M个无序特征项ti，词根/词/短语/其他每个文档dj可以用特征项向量来表示（a1j,a2j，…，aMj）权重计算，N个训练文档AM*N= (aij) 文档相似度比较

向量空间模型（或词组向量模型) 是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型。

此算法可以用于文档排名，学习此算法需要具备3个基础：

1. 倒排索引表。

2. 相似度的概念。

3. TF-IDF算法。

正向索引：文档 ->词汇的索引，比如：

1.txt -> hello 2; spark 5; AI 1;

2.txt -> world 1; hadoop 6;

... ...

方向索引（倒排索引）：词汇 -> 文档的索引，比如：

hello -> 1.txt 2; 3.txt 10;

spark -> 1.txt 5; 4.txt 7;

猜你喜欢

转载自blog.csdn.net/u013955758/article/details/132438313

大数据课程K10——Spark的Vector_Space_Model算法

Vector Space Model向量空间模型算法

大数据课程K18——Spark的ALS算法与显式矩阵分解

大数据课程K14——Spark的数据挖掘案例

大数据课程K22——Spark的SparkSQL的API调用

大数据课程K21——Spark的SparkSQL基础语法

大数据课程K20——Spark的SparkSQL概述

大数据课程K16——Spark的梯度下降法

大数据课程K12——Spark的MLlib概述

大数据课程K9——Spark的调优方法

大数据课程K11——Spark的数据挖掘&&机器学习

大数据课程K15——Spark的TF-IDF计算Term权重

大数据课程K19——Spark的电影推荐案例&&推荐系统的冷启动问题

大数据课程K13——Spark的距离度量&&相似度度量

大数据课程K17——Spark的协同过滤法

未完 - Vector Space Model & TF-IDF

Vector Space Model （向量空间模型）

向量空间模型(vector space model)

向量空间模型(Vector Space Model)的理解

向量空间模型（Vector Space Model）

lucene4.5源码分析系列：lucene的默认评分算法-向量空间模型（Vector Space Model）

【无标题】KAS 新途径ASIC最新款Superscalar K10优劣势

大数据系列10：Spark – 内存计算

大数据Spark MLlib推荐算法

浅谈ASIC芯片的冰河 KS2和K10的可编程芯片有什么区别

大数据之spark on k8s

VMware ESXI 5.5虚拟机测试：ESC4000G2服务器搭配K2及K10显卡

10小时入门大数据（七）------初识Spark

从术语到Spark，10篇必读大数据学习资源

【推荐算法课程】CS246 大数据挖掘

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)