02-NLP-07-词向量及相关应用 - 代码天地

02-NLP-07-词向量及相关应用

其他 2018-06-07 13:22:50 阅读次数: 2

表示人类造出的词：

（1）从语料中提取出含义表达。

（2）从文字到数值向量

词编码的方式：N-gram，TF-IDF——Word2vec（对于多义词会转化到同一个数值向量，从而导致不准确）——sense2vec（区分在不同语境下某些单词的具体含义）

·

给每个词一个索引，每个词都编码一个下标，但是由于词与词之间有一些隐含的关系，这样做会破坏这个关系。近义词，同一类。

绘制到一个二维空间中，希望保证向量空间的相似度，即含义上相近的词绘制到二维空间中之后仍然是相近的。

扫描二维码关注公众号，回复： 1512546 查看本文章

词典：给每个不同的词一个下标

one-hot方法非常耗费内存，很稀疏的表示。数组会很长。

优化方法是只从这么多词当中取出最常用的几千个词，其余超出这些词的全部用一个下标来表示。

由于每个词在本文档中的重要性不一样。如果某个词在所有文档集合中出现频次都很高，那这个词可能就是一个烂大街的词。

但如果这个词仅仅是在本文档中出现高的话，那它就是很重要的一个词，需要适当利用TF-IDF来提高它的重要性。

语言模型：Bi-gram和N-gram

没有办法捕捉到背景知识，例如：词语之间的相近度。

由于句子结构都是这三个类型组成的，因此将乘法变加，大大减少了复杂度

计算机可以看很多文本，可能发现banking这个词老是和某些词一起出现，所有这个词可以用与它相近的词进行表示。

local window局域窗口

表中未计数。矩阵为对称矩阵。当列出共现矩阵的时候，可以通过某一行某一列进行表示。

欠稳定的原因：维度太高，太稀疏

SVD会分解为三个矩阵，取前两个矩阵构成二维空间表示到2D图中：

同样，随着语料库的增加，学习的文本数目越多，共现矩阵的维度也就越大。

此时依旧需要对词进行TF-IDF的词频统计，在周边的共现窗中只考虑高频词汇、有直接实际含义的、重要的词。

由于汉语本来丰富度就很高，如果说要挑选出几千个词就能表示所有常见词显然是一件很难很不实际的事情。

线性模型如果稀疏的话，如L2这一类的，由于这类模型的每个维度的输入会对最后的结果有一个共现。如果当前维度上的input会非常大，那最后结果影响肯定也会很大。

稀疏的坏处就是最后只会有几个有数值的位置会决定最后的结构

如果新加入了词的话，可能需要对共现矩阵重新全部做一遍统计。

DL是对原始特征进行变换然后做特征的抽取。SVD利用数学的方式进行降维不一定是DL想要的方式。

2003年提出了NNLM：

遍历整个语料库，将所有对的词都取出来，将所有正确的概率都加到一起，希望结果尽量大。

猜你喜欢

转载自www.cnblogs.com/Josie-chen/p/9150020.html

02-NLP-07-词向量及相关应用

NLP--词向量与相关应用(七)

NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）

【NLP面试QA】词向量

自然语言处理-词向量与相关应用

NLP课程：词向量到Word2Vec理论基础及相关代码

TensorFlow与NLP（词向量：skip-gram）

【NLP】词向量的惊人力量

NLP基础笔记5——词向量

【NLP】词向量之fastText原理

05[NLP训练营]词向量

【NLP】_03_基础词向量

nlp(1)skip-gram词向量

NLP之NNLM：NNLM算法(词向量法的始祖)的简介、网络结构、案例应用之详细攻略

NLP：word embedding词嵌入/word2vec词向量方法(一种主流的分布式表示)的简介、案例应用之详细攻略

NLP(1) | 词向量one hot编码词向量编码思想

[NLP] 秒懂词向量Word2vec的本质

NLP-词和文档向量化方法

【NLP篇-基础汇总】词向量表示比较

NLP之分词、词向量、预训练篇

PyTorch在NLP任务中使用预训练词向量

NLP学习（1）---Glove模型---词向量模型

系统学习NLP（三十）--词向量对齐

NLP词向量模型总结：从Elmo到GPT,再到Bert

[NLP]高级词向量表达之GloVe详解

[NLP]高级词向量表达之ELMo详解

[NLP]高级词向量表达之WordRank详解

NLP学习笔记14---词向量(word-vector)

NLP复习之【使用飞桨构造生成词向量】

深度学习NLP-词向量篇（含代码实现）

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)