NLP文本预处理过程

其他 2020-04-18 01:44:02 阅读次数: 0

NLP文本预处理过程

第一步：加载数据

读取文本内容和标签

第二步：分词和去除停用词

1、读取停用词和停用符号表，放入空列表中。
2、对文本内容进行分词。
3、分词后的文本内容是否含有停用词表和停用符号，没有即存入列表中。
此时数据为二维列表
[[‘写’, ‘在’, ‘年末’, ‘冬初’, ‘孩子’, ‘流感’, ‘第五天’, ‘我们’, ‘仍然’, ‘没有’, ‘忘记’, ‘热情’, ‘拥抱’],
[‘开年’, ‘大’, ‘模型’, ‘累到’, ‘以为’, ‘自己’, ‘发烧’, ‘了’, ‘腰疼’, ‘膝盖’, ‘疼’, ‘腿疼’],
[],
[],
…
[] ]

第三步：训练词向量

1、使用word2vec（BERT）训练词向量
2、创建词典。输入的是训练的词向量和预处理的文本内容。输出的是（词：索引+1），（词：词向量），（二维列表：每句话中每个词对应的索引[[96,85,46,54,68],[64,2,56,64,52],…[]]）

第四步：获得词向量

获得每句话中每个词对应的词向量，二维列表

发布了56 篇原创文章 · 获赞 1 · 访问量 1685

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44549556/article/details/104796069

NLP文本预处理过程

NLP —— 文本预处理

数据预处理过程

(十五)预处理过程

预处理过程：宏

NLP：文本预处理总览

预处理过程每个元素

Tensorflow nmt的数据预处理过程

图像的预处理过程简介

（三）数据预处理过程简介

情感分析数据预处理过程

预处理过程：头文件

预处理过程（2/13）

NLP——文本处理预处理

nlp文本常见预处理方法

NLP 文本预处理 Python 代码

Linux预处理、编译、汇编、链接的处理过程分析

数据预处理过程中处理方法

预处理过程：概念及命令行

NLP文本预处理去除标点符号

小语种nlp文本预处理——数据清洗

关于NLP中的文本预处理的完整教程

NLP知识点：文本数据的预处理

NLP-文本数据预处理案例

使用 Python 在 NLP 中进行文本预处理

NLP数据预处理

图像处理过程中的一些预处理方法

MVC处理过程

flask 处理过程

jsp处理过程

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)