向量空间模型（Vector Space Model） - 代码天地

向量空间模型（Vector Space Model）

其他 2019-09-13 17:19:17 阅读次数: 0

搜索结果排序是搜索引擎最核心的构成部分，很大程度上决定了搜索引擎的质量好坏。虽然搜索引擎在实际结果排序时考虑了上百个相关因子，但最重要的因素还是用户查询与网页内容的相关性。（ps：百度最臭名朝著的“竞价排名”策略，就是在搜索结果排序时，把广告客户给钱最多的排在前列，而不是从内容质量考虑，从而严重影响了用户体验）。这里要讲的就是：给定用户搜索词，如何从内容相关性的角度对网页进行排序。判断网页内容是否与用户查询相关，这依赖于搜索引擎所采用的检索模型，常见的检索模型有：布尔模型、向量空间模型、概率模型和机器学习排序算法等。在我的项目中，使用了向量空间模型（Vector Space Model，VSM），因此这篇文章主要总结一下向量空间模型相关的内容。

向量空间模型是一种文档表示和相似性计算的工具，不仅在搜索领域，在自然语言处理、文本挖掘等领域也是普遍采用的工具。

1. 文档表示

作为表示文档的工具，向量空间模型把每个文档看做是由 t 维特征组成的一个向量，特征的定义可以采取不同方式，最常见的是以单词作为特征，就是从一篇文档中抽取出 t 个关键词，其中每个特征会根据某种算法计算其权重，这 t 维带有权重的特征向量就用来表示这一篇文档。

下图展示了4个文档在3维向量空间中如何表示，比如对于文档2，它由3个带有权重的特征组成{w21, w22, w23}。在实际应用中，维度通常是非常高的，达成千上万维，这里只是为了简化说明。用户查询也被看成是一个特殊的文档，也将其转换成 t 维的特征向量，之所以也将其转化为一个 t 维向量，是为了计算文档相似性，后面会说的。

下面是一个文档表示的实例，对于文档D4、D5及用户查询，通过提取关键词进行特征转换，可表示如下。

2. 相似性计算

3. 特征权重计算

猜你喜欢

转载自www.cnblogs.com/kkbill/p/11517121.html

Vector Space Model （向量空间模型）

向量空间模型(vector space model)

向量空间模型(Vector Space Model)的理解

Vector Space Model向量空间模型算法

向量空间模型（Vector Space Model）

lucene4.5源码分析系列：lucene的默认评分算法-向量空间模型（Vector Space Model）

NLP --- 文本分类（向量空间模型（Vector Space Model）VSM）

未完 - Vector Space Model & TF-IDF

Lucene学习之计算相似度模型VSM(Vector Space Model)

大数据课程K10——Spark的Vector_Space_Model算法

Model Space Exploration with Deep Neural Networks: An E

数学基础 - 线性空间（Vector Space）

linux 交换空间（space space）详解

KBEngine源码：Space空间

Space Syntax（空间句法）

c#读DWG文件中Model_Space的数据

Model 模型

模型（Model）

模型Model

User space（用户空间）和 Kernel space（内核空间）

User space(用户空间) 与 Kernel space(内核空间)

尺度空间 (Scale Space)

Linux交换空间（swap space）

PythonStudy——名称空间 Name space

Extractive Summarization using Continuous Vector Space Models

Efficient Estimation of Word Representations in Vector Space

Efficient Estimation of Word Representations in Vector Space（翻译）

精读&解析 Entire Space Multi-Task Model（ESMM）阿里2018年CVR预测

推荐系统论文阅读：Entire Space Multi-Task Model

经典论文阅读(四)--ESMM(阿里Entire Space Multi-Task Model)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)