机器学习算法Python实现：word2vec 求词语相似度 - 代码天地

机器学习算法Python实现：word2vec 求词语相似度

其他 2018-08-29 02:07:13 阅读次数: 0

#!/usr/bin/env Python3
# coding=utf-8
import jieba
jieba.load_userdict("C:\\Users\\Desktop\\s_proj\\dict.txt")  #自定义分词词典

#分词并将结果存入txt
f1 =open("C:\\Users\\Desktop\\neg.txt","r",encoding='utf-8',errors='ignore')
f2 =open("C:\\Users\\Desktop\\car_fenci.txt", 'w',encoding='utf-8',errors='ignore')
lines =f1.readlines()  # 读取全部内容
w=''
for line in lines:
    line.replace('\t', '').replace('\n', '').replace(' ','')
    seg_list = jieba.cut(line, cut_all=False)
    f2.write(" ".join(seg_list))
f1.close()
f2.close()

from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO)

#训练word2vec模型
sentences=word2vec.Text8Corpus(u"C:\\Users\\Desktop\\car_fenci.txt")
model =word2vec.Word2Vec(sentences,size=400, window=10, min_count=1)  #训练skip-gram模型，默认window=5
print (model)

#保存模型
model.save("model_word")
# 以一种C语言可以解析的形式存储词向量  
model.wv.save_word2vec_format("model_word.bin", binary=True)  
if __name__ == "__main__":  
    pass  

#打开要计算相似度的2个文本
f3 =open(r"C:\Users\Desktop\s_proj\keyword.txt","r",encoding='utf-8',errors='ignore')
f4=open(r"C:\Users\Desktop\s_proj\c.txt","r",encoding='utf-8',errors='ignore')

#要计算的2个文本预处理
f=[]
ff=[]
for i in f3.readlines():
    i=i.replace('\n','')
    f.append(i)
    for j in f4.readlines():
        j=j.replace('\n','')
        ff.append(j) 

#相似度计算
for ii in f:
    for jj in ff:
        try:
            y1 = model.wv.similarity(ii, jj)  
            print (ii+' '+jj,y1) 
        except:
            print (ii+' '+jj,0)

猜你喜欢

转载自blog.csdn.net/hellozhxy/article/details/82083209

机器学习算法Python实现：word2vec 求词语相似度

jieba分词以及word2vec词语相似度

机器学习算法Python实现：doc2vec 求句子相似度

Word2Vec提取关键词，词语相似度

基于word2vec的疾病和手术相关词语的相似度计算

tensorflow-word2vec：求单词的相似度

系统学习NLP（七）--词语相似度

word2vec 计算相似度（基于Wiki）

基于Word2Vec 的相似度计算

深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算

Doc2Vec,Word2Vec文本相似度初体验。

python word2vec 判断某个词语是否在词典中

[zt]word2vec词向量训练及中文文本相似度计算

word2vec的应用：gensim相似度检测（附代码）

word2vec全部弹幕比较句子相似度情感五分类

20180923 word2vec相似度改进（不浪费句子）

使用Word2Vec计算《庆余年》中人物的相似度

word2vec词向量训练及中文文本相似度计算

[Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算

【机器学习】使用gensim 的 doc2vec 实现文本相似度检测

MATLAB中实现编辑距离并求相似度

python和opencv常用求图像相似度持续更新

word2vec的时间复杂度

word2vec 和 doc2vec 相似和区别

机器学习——Word2Vec

中文word2vec的python实现

python初步实现word2vec

Python实现word2Vec -model

[文本语义相似] 基于Word2Vec的wmdistance (Word Mover Distance)

phpword2vec 1.0 发布：PHP 调用 word2vec 实现机器学习

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)