汉字的字向量、词向量和表示学习（中文词向量） - 代码天地

汉字的字向量、词向量和表示学习（中文词向量）

其他 2019-05-09 14:02:33 阅读次数: 0

中文词向量、字向量
将汉字拆分成偏旁部首训练词向量

现在有个想法是将汉字拆分成偏旁部首或者笔画，想法来自 fastText 的 n-gram 字符集。（注意：在 Chinese NLP 领域, 应该默认以 word 为词, character 为字, 本文也是如此. 以后如无意外, 不再赘述。）

fastText：2016年 facebook 的论文
Enriching Word Vectors with Subword Information

cw2vec: 阿里
Learning Chinese Word Embeddings with Stroke n-gram Information
AAAI 2018高分录用的一篇中文词向量论文，出自蚂蚁金服人工智能部。

Chinese Word Vectors：目前最全的中文预训练词向量集合
https://www.jiqizhixin.com/articles/2018-05-15-10

自然语言处理算法之cw2vec理论及其实现（基于汉字笔画）
https://blog.csdn.net/HHTNAN/article/details/81807680

Unicode汉字笔画顺序表
UNICODE汉字笔顺表，共2万多个汉字，最多的有四十多划。
https://download.csdn.net/download/bao110908/363125

搜“笔画拆拆”
https://bbs.csdn.net/topics/380220799

猜你喜欢

转载自blog.csdn.net/s1162276945/article/details/85098420

汉字的字向量、词向量和表示学习（中文词向量）

中文词向量

中文词向量训练

中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)

词的向量表示

paddle词向量的表示

中文词向量论文综述

训练GloVe中文词向量

Bert 得到中文词向量

词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法

NLP模型笔记2022-16：词向量与中文词向量论文综述

高级词向量表示

FastText词向量表示

深度学习：词向量和句向量（Embedding）

词向量及文本向量

中文词向量论文综述（四）

中文词向量论文综述（三）

gensim中文词向量训练实战

使用BERT获取中文词向量

『词向量』用Word2Vec训练中文词向量（二）—— 采用维基百科语料库

『词向量』用Word2Vec训练中文词向量（一）—— 采用搜狗新闻数据集

词嵌入，词向量，语言表示

ELMo词向量用于中文

词向量

论文分享|【词向量专题】中文词嵌入最新进展

自然语言处理学习笔记6：向量距离之高级的词向量表示

05词向量表示理论篇

学习笔记（一）__词向量

字和词语联合训练的词向量模型

词向量和语言模型

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)