中文自然语言处理--Gensim 构建词袋模型 - 代码天地

中文自然语言处理--Gensim 构建词袋模型

其他 2021-03-25 17:43:22 阅读次数: 0

import jieba
from gensim import corpora
import gensim

# 首先，引入 jieba 分词器、语料和停用词。
# 定义停用词、标点符号
punctuation = ["，", "。", "：", "；", "？"]
# 定义语料
content = ["机器学习带动人工智能飞速的发展。",
           "深度学习带动人工智能飞速的发展。",
           "机器学习和深度学习带动人工智能飞速的发展。"]

# 对语料进行分词操作，这里用到 lcut() 方法
# 分词
segs_1 = [jieba.lcut(con) for con in content]
print(segs_1)

# 去停用词和标点符号
tokenized = []
for sentence in segs_1:
    words = []
    for word in sentence:
        if word not in punctuation:
            words.append(word)
    tokenized.append(words)
print(tokenized)

# tokenized是去标点之后的
dictionary = corpora.Dictionary(tokenized)
print(dictionary)
# 查看词典和下标 id 的映射
print(dictionary.token2id)
print(dictionary.dfs)
# 保存词典
dictionary.save('deerwester.dict')

# 得到词袋模型的特征向量
corpus = [dictionary.doc2bow(sentence) for sentence in segs_1]
print(corpus)

原文：
https://soyoger.blog.csdn.net/article/details/108729409

猜你喜欢

转载自blog.csdn.net/fgg1234567890/article/details/114684432

中文自然语言处理--Gensim 构建词袋模型

中文自然语言处理--手动构建词袋模型

自然语言处理----词袋模型

自然语言处理中的词袋模型

自然语言处理中的词袋模型与文本向量化

【自然语言处理】从词袋模型到Transformer家族的变迁之路

中文自然语言处理--基于 LDA 主题模型进行中文文本中的关键词提取

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

自然语言处理（NLP）： 01 基于词袋模型（BOW）特征抽取 + 贝叶斯算法新闻文本分类

《序列模型》之自然语言处理和词嵌入

序列模型——自然语言处理与词嵌入（理论部分）

自然语言处理(五)：子词嵌入（fastText模型）

自然语言处理——（一）语言模型

【自然语言处理】语言模型

自然语言处理(三)语言模型

自然语言处理——语言模型

自然语言处理---语言模型

自然语言处理——语言模型(一)

自然语言处理——词的表示

自然语言处理5 -- 词向量

自然语言处理(一)：词嵌入

自然语言处理--构建词频向量

自然语言处理（二十四）：Transformer模型构建

自然语言处理学习7：jieba中文关键词提取和词性标注

中文自然语言处理--词向量Word2Vec

中文自然语言处理--基于文本内容的可视化-词云

中文自然语言处理--基于 pyhanlp 进行关键词提取

自然语言处理从入门到应用——自然语言处理的基础任务：中文分词和子词切分

自然语言处理--信息模型

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)