自然语言处理学习3：中文分句re.split()，jieba分词和词频统计FreqDist - 代码天地

自然语言处理学习3：中文分句re.split()，jieba分词和词频统计FreqDist

其他 2018-05-30 15:17:38 阅读次数: 1

1. 使用re.split() 分句，re.split(delimiter, text)

import jieba
import re

# 输入一个段落，分成句子，可使用split函数来实现
paragraph = "生活对我们任何人来说都不容易！我们必须努力，最重要的是我们必须相信自己。 \
我们必须相信，我们每个人都能够做得很好，而且，当我们发现这是什么时，我们必须努力工作，直到我们成功。"

sentences = re.split('(。|！|\!|\.|？|\?)',paragraph)         # 保留分割符

new_sents = []
for i in range(int(len(sentences)/2)):
    sent = sentences[2*i] + sentences[2*i+1]
    new_sents.append(sent)

保留分割符：delimiter加上圆括号

不保留分割符：delimiter不加圆括号

2. jieba分词

（1）jieba.cut(sentence)返回可迭代对象

(2) jieba.lcut(sentence)以列表形式返回分词结果

(3) 获取不同句子的分词结果

3. 获取词频: 同样可以使用nltk中的FreqDist

import nltk
import numpy as np
#统计词频
#nltk.FreqDist返回一个词典，key是不同的词，value是词出现的次数
freq_dist = nltk.FreqDist(words_list)
freq_list = []
num_words = len(freq_dist.values())
for i in range(num_words):
    freq_list.append([list(freq_dist.keys())[i],list(freq_dist.values())[i]])
freqArr = np.array(freq_list)

猜你喜欢

转载自blog.csdn.net/zhuzuwei/article/details/80487032

自然语言处理学习3：中文分句re.split()，jieba分词和词频统计FreqDist

自然语言处理学习1：nltk英文分句WordPunctTokenizer、分词word_tokenize和词频统计FreqDist

自然语言处理学习4：nltk词频统计FreqDist，ConditionalFreqDist和tabulate 结合汽车评论实例

自然语言处理学习7：jieba中文关键词提取和词性标注

python实战，中文自然语言处理，应用jieba库来统计文本词频

python自然语言处理（一）之中文分词预处理、统计词频

中文自然语言处理--jieba 中文分词

机器学习之自然语言处理——中文分词jieba库详解（代码+原理）

Python 自然语言处理（基于jieba分词和NLTK）

自然语言处理之jieba分词

自然语言处理之中文分词器－jieba分词器详解及python实战

Python自然语言处理—统计词频

【Python+中文自然语言处理】（二）中文分词工具包：jieba

Python自然语言处理实战（3）：中文分词技术

自然语言处理学习8：python使用standford CoreNLP进行中文分词、标注和命名实体识别

自然语言处理2 -- jieba分词用法及原理

【Python自然语言处理】中文分词技术——统计分词

python jieba分词及中文词频统计

自然语言处理学习

自然语言处理学习笔记

自然语言处理（中文分句）——————中文逆向最大匹配，文章中含有验证源码

自然语言处理-------jieba

自然语言处理学习2：英语分词1word_tokenize, WordPunctTokenizer, TreebankWordTokenizer , WhitespaceTokenizer等

自然语言处理——中文分词原理及分词工具介绍

【Python自然语言处理】中文分词技术——规则分词

NLP自然语言 - jieba分词库

自然语言（NLP）处理流程—IF-IDF统计—jieba分词—Word2Vec模型训练使用

机器学习基础之自然语言处理-jieba中文处理

中文自然语言处理(NLP)(一)python jieba模块

python3.6实现中文分词统计-自然语言处理小项目

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)