（十五）通俗易懂理解——Glove算法原理 - 代码天地

（十五）通俗易懂理解——Glove算法原理

其他 2019-04-09 10:00:55 阅读次数: 0

这个算法说是很牛逼，可是看了一些材料说的很多都是应用，对于原理说得不清楚，找到两篇，说得还算不错，不过还是没有完全清楚细节，若干年后学会了再补充。

概述

做自然语言处理的时候很多时候会用的WordEmbedding，目前我常用的方法是word2vec算法训练词向量。不过训练词向量的方法有很多，今天介绍GloVe算法。

GloVe：Global Vectors。

模型输入：语料库 corpus

模型输出：每个词的表示向量

基本思想

要讲GloVe模型的思想方法，我们先介绍两个其他方法：

一个是基于奇异值分解（SVD）的LSA算法，该方法对term-document矩阵（矩阵的每个元素为tf-idf）进行奇异值分解，从而得到term的向量表示和document的向量表示。此处使用的tf-idf主要还是term的全局统计特征。

另一个方法是word2vec算法，该算法可以分为skip-gram 和 continuous bag-of-words（CBOW）两类,但都是基于局部滑动窗口计算的。即，该方法利用了局部的上下文特征（local context）

LSA和word2vec作为两大类方法的代表，一个是利用了全局特征的矩阵分解方法，一个是利用局部上下文的方法。

GloVe模型就是将这两中特征合并到一起的，即使用了语料库的全局统计（overall statistics）特征，也使用了局部的上下文特征（即滑动窗口）。为了做到这一点GloVe模型引入了Co-occurrence Probabilities Matrix。

首先引入word-word的共现矩阵XX，

讲到这里，没有一个例子来说明，那就真是一件很遗憾的事情了，所以必须来个实例，实例永远是帮助理解最好的方式。

统计共现矩阵

模型推导

以下内容看似公式很多，其实挺容易理解的，耐心看

原文博客：https://blog.csdn.net/coderTC/article/details/73864097

原文博客：https://www.cnblogs.com/Weirping/p/7999979.html

猜你喜欢

转载自blog.csdn.net/qq_36696494/article/details/89135523

（十五）通俗易懂理解——Glove算法原理

（十四）通俗易懂理解——GBDT算法原理

（十三）通俗易懂理解——Adaboost算法原理

ICP算法理解(通俗易懂）

（六）通俗易懂理解——viterbi算法

（十）通俗易懂理解——EM算法

通俗易懂的AI算法原理

（二）通俗易懂理解——Skip-gram和CBOW算法原理

（十六）通俗易懂理解——PCA主成分分析算法原理

通俗易懂理解ITIL

通俗易懂理解ERP

通俗易懂理解卷积

通俗易懂的理解卷积

最通俗易懂的NIO原理解释

通俗易懂地理解MapReduce的工作原理

Java－通俗易懂地理解HashMap的原理

通俗易懂chatGPT原理

通俗易懂且最快的理解KMP算法---详解

机器学习算法：UMAP 深入理解（通俗易懂！）

通俗易懂举栗子--怎么理解反向传播算法？

BFS和DFS算法原理（通俗易懂版）

通俗易懂的Adaboost算法原理分析和实例+代码

MySQL中Join算法实现原理通俗易懂

JVM原理：JVM垃圾回收算法（通俗易懂）

通俗易懂维特比算法

通俗易懂SpringMVC整体框架理解

Spring AOP概念理解（通俗易懂）

Spring AOP理解（通俗易懂）

通俗易懂理解 WebSocket及其应用

Spring AOP的理解(通俗易懂)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)