自然语言处理-词向量与相关应用 - 代码天地

自然语言处理-词向量与相关应用

其他 2018-07-10 03:12:50 阅读次数: 0

计算机处理图像和文字的实质是在向量矩阵等基础上将其转化为数字，然后计算搜索的内容和库内容信息的匹配度

文字--->数值向量

算法案例：

词编码：N-gram

权重：TF-IDF ---->word2vec---->sense2vec

-----------------------------------------------------------------------------------------------------

NLP常见任务

自动摘要（百度，google）

指代消解 (代词理解指代是什么)

机器翻译（应用面很广，但目前还不完善）

词性标注

分词（中文，英文，日文）

主题识别

文本分类

.............

-----------------------------------------------------------------------------------------------------

NLP处理方法：

传统：基于规则

现代：基于统计机器学习

HMM CRF SVM LDA CNN......

"规则"隐含在模型参数里

-----------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------

数据决定结果上限

算法将以多大程度接近结果上限

词权重：（词在文档中的顺序没有被考虑）

TF-IDF 信息检索

Binary weighting 短文本相似性

离散表示缺点：

词表维度随着语料库增长膨胀

n-gram词序列随语料库膨胀更快

数据稀疏问题

无法衡量词向量之间的关系

分布式表示：

用一个词附近的其他词来表示该词

--》被称为现代统计自然语言处理中最有创见的想法之一

共现矩阵：

主要发现主题，用于主题模型，如LSA

局域窗中的word-word共现矩阵可以挖掘语法和语义信息

共现矩阵存的问题：

向量维度随着词典大小线性增长

存储整个词典的空间消耗非常大

一些模型如文本分类模型会面临稀疏性问题

模型会欠稳定

构造低维稠密向量作为词的分布式表示（25维~1000维）！

SVD降维

-----------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------

猜你喜欢

转载自blog.csdn.net/qq_35394891/article/details/80787825

自然语言处理-词向量与相关应用

自然语言处理5 -- 词向量

自然语言处理从入门到应用——动态词向量预训练：ELMo词向量

自然语言处理从入门到应用——动态词向量（Dynamic Word Embedding）/上下文相关的词向量（Contextualized Word Embedding）

自然语言处理从入门到应用——动态词向量预训练：双向语言模型

自然语言处理从入门到应用——全局向量的词嵌入：GloVe（Global Vectors for Word Representation）词向量

用深度学习来获取文本语义词向量应用于自然语言处理

自然语言处理从入门到应用——词向量的评价方法

自然语言处理系列-3.词向量

自然语言处理中的词向量问题

自然语言处理系列---分词与词向量

自然语言处理之动手学词向量

自然语言处理(四)：全局向量的词嵌入（GloVe）

中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)

自然语言处理学习笔记6：向量距离之高级的词向量表示

自然语言处理(四)神经网络语言模型及词向量

自然语言处理基本概念、词向量发展、语言模型

自然语言处理--构建词频向量

自然语言处理——词的表示

自然语言处理----词袋模型

自然语言处理(一)：词嵌入

自然语言处理词向量模型-word2vec

自然语言处理中的词袋模型与文本向量化

自然语言处理之word2vec原理词向量生成

自然语言处理Word2Vec词向量模型

利用sklearn做自然语言处理（NLP）——词向量特征构建

干货｜自然语言处理中的词向量 — word2vec！

自然语言处理入门学习笔记3：词向量

中文自然语言处理--词向量Word2Vec

NLP自然语言处理之Word2Vec(一）词向量

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)