Doc2Vec,Word2Vec文本相似度初体验。 - 代码天地

Doc2Vec,Word2Vec文本相似度初体验。

企业开发 2018-05-29 17:37:04 阅读次数: 0

参考资料：
https://radimrehurek.com/gensim/models/word2vec.html

接上篇：

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%','：',
                        '/','\xa0','。','；','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型，参考英文官网，在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机')

Doc2Vec,Word2Vec文本相似度初体验。

猜你喜欢

转载自blog.51cto.com/13000661/2121673

Doc2Vec,Word2Vec文本相似度初体验。

doc2vec方法判断文本相似度

基于doc2vec计算文本相似度

【机器学习】使用gensim 的 doc2vec 实现文本相似度检测

gensim中doc2vec计算文本相似度

用gensim doc2vec计算文本相似度，Python可以跑通的代码

深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算

word2vec 和 doc2vec 相似和区别

word2vec、doc2vec的使用

word2vec 和 doc2vec

Word2vec 和 Doc2vec 总结

word2vec和doc2vec的总结

函数初体验（2）

[zt]word2vec词向量训练及中文文本相似度计算

word2vec词向量训练及中文文本相似度计算

Struts2 初体验

2.Tuscany初体验

2、Caffe安装初体验

Koa 2 初体验（二）

Koa2初体验

Struts2初体验

Doc2Vec计算句子相似度

利用word2vec，对短文本做文本相似

DOC2VEC:所涉及的参数以及WORD2VEC所涉及的参数

Gensim进阶教程：训练word2vec与doc2vec模型

gensim 中tf-idf模型, word2vec 与 doc2vec 简单使用

情感分类 doc2vec vs. word2vec

Python训练Word2Vec和Doc2Vec

数据转换Word2Vec和Doc2Vec

动手实践word2vec和doc2vec模型

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)