NLP文本相似度

其他 2019-03-05 10:51:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_1290259791/article/details/84284002

NLP文本相似度

相似度度量：计算个体间相似程度

jieba：Python的第三方库，用于自然语言处理，对文本进行分词。
gensim：利用 TF-IDF 算法来进行文本相似度计算。

处理思路： jieba 进行分词，整理为指定格式，利用 gensim 库将要对比的文档通过 doc2bow 转换成稀疏向量，再通过 models 中的 TF-IDF 将语料库进行处理，特征值和稀疏矩阵相似度建立索引，来得到最后的相似结果。

余弦相似度、向量空间模型

最常用：余弦相似度，向量空间中两个向量夹角的余弦值作为衡量两个个体间的差异大小
文字中向量属于n维度，将词频向量化。

两个句子的相似度计算

通过中文分词，把完整句子根据分词算法分为独立的词集合
求出两个词集合的并集
计算各自词集的词频并把词频向量化
带入向量计算模型来求出文本相似度

处理文本相似度流程是

找出文章的关键词
求出两个词集和的并集
计算每篇文章对于集合中的词的词频
计算两篇文章各自的词频向量
计算两个向量的余弦相似度，值越大表示越相似

TF-IDF

TF-词频

TF——词频：一个词在文章问出现的次数

假设：如果一个词很重要，应该在文章中多次出现
注意停用词： 像‘的’、‘好’这种词被列为停用词，被列为黑名单
停用词对结果没有作用，过滤掉停用词
反假设：如果某个词较少出现，但是在文章中出现多次出现，它很可能反应这篇文章的特性，正是关键词。

IDF-反文档频率

在词频的基础上，赋予每个词的权重，体现改词的重要性。

常见的词，给予最小的权重
较常见的词，给予较小的权重
较少见的词

将 TF 和 IDF 相乘，就得到一个词的 TF-IDF 值，某个词对文章的重要性越高，该值就越大，排在前面的词语，就是这篇文章的关键词。
**注意：**实际中，还要考虑词的词性，动词、名次、形容词的刻画能力也是有差别的。

计算步骤

词频（TF）：某个词在文章出现的次数，两种计算方式。

TF=(某词在文章出现总次数/文章的总词数) 得出词汇较小，不便于分析。
TF=(某词在文章中出现的次数/文中出现次数最多的词的次数) 标准更适用，因为能够使词频的值相对大点，便于分析。

反文档词频（IDF）：log(语料库的文档总数/包含改词的文档数+1)

分母+1，为了防止分母为0的情况。
log函数是单调递增，求log是为了归一化，保证反文档频率不会过大。

猜你喜欢

转载自blog.csdn.net/qq_1290259791/article/details/84284002

NLP文本相似度

NLP之文本相似度

NLP学习——文本相似度计算

文本相似度

[NLP] 中文文本相似度实战

NLP文本相似度(TF-IDF)

nlp中文本相似度计算问题

【python 走进NLP】文本相似度各种距离计算

（NLP）基于分词标签的中文短文本相似度

从0到1，了解NLP中的文本相似度

NLP学习（3）---计算文本相似度

NLP—小任务一：文本相似度计算

文本相似度算法

浅析文本相似度

关于文本相似度

文本相似度推荐

文本相似度分析

文本相似度-相似度度量

短文本相似度在线查询应用-NLP-百度AI开放平台

学习笔记--NLP文本相似度之LCS（最长公共子序列）

学习笔记--NLP文本相似度之TF-IDF

短文本相似度比较

短文本相似度计算

文本相似度计算的常用方法

文本相似度之Levenshtein算法

文本相似度计算-编辑距离

短文本相似度笔记

中文短文本相似度：WMD

python文本相似度计算

文本相似度的方法对比

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)