文本的向量表示之One-Hot表达、TF-IDF权重策略

其他 2020-04-20 17:45:48 阅读次数: 0

文本的向量表示

1.向量表示方法

One-Hot表达
TF-IDF权重策略

2.目的

非结构化数据到结构化数据的转化

3.本质

将词袋中的每个词表示为一个个向量(词袋中的所有词不能重复)

4.One-Hot表达例子

词袋:[am,college,data,I,in,majored,mining,mathematics,on]
词袋中每个单词的向量表示：
am: [1 0 0 0 0 0 0 0 0]
college:[0 1 0 0 0 0 0 0 0]
…
给出两个文档：
文档1：I majored in mathematics in college.
文档2：I am keen on learning data mining.
文本转化为词向量矩阵
文档1:[0 1 0 1 1 1 0 1 0]
文档2:[1 0 1 1 0 0 1 0 1]#列表中元素个数=词袋元素个数

5.One-Hot缺点

忽略了句子的词频信息。

6.One-Hot改进——TF-IDF权重策略

key:权重策略文档中的高频词应具有表征此文档较高的权重。
关键词词频TF，指一篇文档中关键词出现的频率：

$TF=\frac{N}{M}$

其中， $N$ 是单词在文档中的频次， $M$ 是文档的单词数

逆向文本频率IDF，用于衡量关键词权重的指数：

$IDF=log(\frac{D}{D_w})$

其中， $D$ 是总文档数， $D_w$ 是出现了该单词的文档数

$TF-IDF=TF \times IDF$

增加词频信息
文本1:[0 1 0 1 2 1 0 1 0]
文本2:[1 0 1 1 0 0 1 0 1]
避免句子长度不一致问题，采用归一化文档TF信息
文本1:[0 1/6 0 1/6 2/6 1/6 0 1/6 0]
文本2:[1/6 0 1/6 1/6 0 0 1/6 0 1/6]

对于每一个单词都有一个 $TF-IDF$ 权值，对于一个文本即一句话都有一个 $TF-IDF$ 权值向量。

发布了22 篇原创文章 · 获赞 3 · 访问量 3097

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_39920026/article/details/104171732

文本的向量表示之One-Hot表达、TF-IDF权重策略

one-hot 和 TF-IDF

one-hot和tf-idf的理解

特征提取方法: one-hot 和 TF-IDF

特征提取方法：one-hot 和 TF-IDF

NLP(5): 停用词，文本的表示，文本的相似度，tf-idf，词向量

文本离散表示（二）：新闻语料的one-hot编码

文本表示方法--独热编码(One-Hot)

one-hot向量形式

自然语言处理——TF-IDF文本表示

文本表示方法--词频-逆文件频率(TF-IDF)

文本型数据的向量化:TF-IDF

基于TF-IDF文本向量化的垃圾短信识别

pytorch---之转成one-hot向量

词向量系列之One-Hot编码详解

数据预处理之one-hot词向量

词向量之TF-IDF模型详解

文本的向量表示

one-hot 独热编码tf.one_hot()

文本挖掘预处理之TF-IDF

【python】文本挖掘预处理之TF-IDF

tensorflow转换one-hot向量

多分类标签（one-hot向量）

文本表示（one-hot独热编码&分布式表示）

nlp之TF-IDF

python计算稀疏表示的TF-IDF

从文本预处理到TF-IDF权重计算（一）

Task4.文本表示：从one-hot到word2vec

TF-IDF（转）输出到文本

文本的简单表示 boolean representation count-based Representation tf-idf python实现

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)