python学习-102-文本数据的预处理-分词 - 代码天地

python学习-102-文本数据的预处理-分词

其他 2021-03-31 19:32:47 阅读次数: 0

前言：

对于自然语言处理来讲在一些情况下需要建立自己的语料库，并将其训练为模型，本片文章是将已经整理好的数据进行分词和去除杂乱字符的操作。通过结巴分词工具进行分词，加载自定义的停用词表(停用词表内容=中科院+自定义)

不喜勿喷^-^

数据保存在TXT文件中如下：

分词完成：

代码：

# coding:utf8
import utils as util
import jieba

# 1读入文件分词之后存入文件
def readCutRemovewrite(readfile_path, writefile_path):
    inputs = open(readfile_path, 'r', encoding='utf-8')
    outputs = open(writefile_path, 'w', encoding='utf8')
    for line in inputs:
        line_seg = seg_sentence(line)  # 这里的返回值是字符串
        outputs.write(line_seg + '\n')
    outputs.close()
    inputs.close()

# 2句子分词并去停用词
def seg_sentence(sentence):
    # 2创建停用词list
    stopWords = [line.strip() for line in open('data/stopWord.txt', 'r', encoding='utf-8').readlines()]
    sentence_seged = jieba.cut(sentence.strip())
    outstr = ''
    for word in sentence_seged:
        if word not in stopWords:
            if word != '\t':
                outstr += word
                outstr += " "
    return outstr

if __name__ == '__main__':

    readfile_path =r'F:\data\test1.txt'
    #工具类方法 读入 分词 写入
    readCutRemovewrite(readfile_path,writefile_path)
    print('数据预处理完成')

猜你喜欢

转载自blog.csdn.net/u013521274/article/details/84994835

python学习-102-文本数据的预处理-分词

Python数据预处理 - 文本数据的量化 - 代码实现

python学习（五）：读写文本及文本数据处理

IMDb电影评论情感预测（文本数据预处理）--keras--python源码（24）

mongodb中文文本数据（新闻评论）预处理代码（python+java）

几种简单的文本数据预处理方法

AllenNLP文本数据预处理类关系图

情感分析中文本数据预处理

NLP知识点：文本数据的预处理

第二节：文本数据预处理

NLP-文本数据预处理案例

Python 电子病历（EMR）机器学习和深度学习数据预处理，医学文本标签数据预处理

Python文本数据处理

Python 文本数据处理

用python处理文本数据（5）

Python机器学习----第2部分样本数据预处理

深度学习—— 处理文本数据

处理文本数据

文本分析 nlp 处理文本数据（分词、去停用词）

自然语言处理文本预处理（下）（张量表示、文本数据分析、文本特征处理等）

python ：中英文文本预处理（包含去标点分词词干提取）

文本数据预处理：sklearn中CountVectorizer、TfidfTransformer和TfidfVectorizer

torch 封装文本数据预处理、训练、评估、预测过程

python机器学习——NLTK及分析文本数据（自然语言处理基础）

python深度学习--处理文本数据（one-hot; word Embedding)

文本预处理的基础学习

文本或图片数据预处理

Python数据攻略-Pandas与文本数据处理

机器学习-数据预处理（Python实现）

python 机器学习之数据预处理

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)