Spark下的word2vec模型训练 - 代码天地

Spark下的word2vec模型训练

其他 2018-10-13 01:06:17 阅读次数: 0

一、引言

前边一节介绍了Word2Vec模型训练同义词，那么在大数据量的情况下，我们自然想到了用spark来进行训练。下面就介绍我们是如何实现spark上的模型训练。

二、分词

模型训练的输入是分好词的语料，那么就得实现spark上的分词。

def split(jieba_list, iterator):
    sentences = []
    for i in iterator:
        try:
            seg_list = []
            #out_str = ""
            s = ""
            for c in i:
                if not c is None:
                    s += c.encode('utf-8')
            id = s.split("__")[0]
            s = s.split("__")[1]
            wordList = jieba.cut(s, cut_all=False)
            for word in wordList:
                out_str += word
                out_str += " "
                sentences.append(out_str)
        except:
            continue
    return sentences

三、模型训练

这里，直接用分词后的rdd对象作为输入

   word2vec = Word2Vec().setNumPartitions(50)
   spark.sql("use jkgj_log")
   df = spark.sql("select label1_name,label2_name from mid_dim_tag ")
   df_list = df.collect()
   spark.sparkContext.broadcast(df_list)
   diagnosis_text_in = spark.sql("select main_suit,msg_content from diagnosis_text_in where pt>='20170101'")

   inp = diagnosis_text_in.rdd.repartition(1200).mapPartitions(lambda it: split(df_list,it)).map(lambda row: row.split(" "))
   model = word2vec.fit(inp)

猜你喜欢

转载自blog.csdn.net/chunyun0716/article/details/64133028

Spark下的word2vec模型训练

Word2Vec模型增量训练

Word2Vec模型

DL4J模型训练Word2Vec

Word2Vec训练同义词模型

Word2Vec模型之训练篇

Gensim进阶教程：训练word2vec与doc2vec模型

word2vec训练词向量

word2vec训练中文语料

Word2vec训练方法

Pytorch实现word2vec训练

利用Gensim 训练 Word2Vec

Gensim 中 word2vec 模型的恢复训练：载入存储模型并继续训练

Word2vec 模型理解

Word2Vec模型总结

word2vec模型评估方案

Word2vec之CBOW 模型

Word2vec模型复现与PYTHONHASHSEED

【深度学习】word2vec（下）

【word2vec】之训练模型结果的结构探究模型改造 python gensim

word2vec

【不可思议的Word2Vec】 2.训练好的模型

Word2Vec的原理是什么，如何用训练Word2Vec

Python Word2Vec使用训练好的模型生成词向量

word2vec训练中文模型寒小阳老师

wikipedia 训练繁体中文 embedding(word2vec)模型

一文详解 Word2vec 之 Skip-Gram 模型（训练篇）

【python 走进NLP】word2vec 训练词嵌入模型

【深度学习】120G+训练好的word2vec模型（中文词向量）

glove 预训练模型转化为word2vec可读取

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)