Python快速统计文件中高频词 - 代码天地

Python快速统计文件中高频词

业界资讯 2020-10-31 13:04:53 阅读次数: 0

思路：

1.通过jieba库获取所有词语列表；
2.计算列表里出现词语及其对应的词频，存储在字典中；
3.对字典里的词语按照频次进行排列；
4.输出频次前十的词语及其频次；

jieba库的安装

需要cmd进入命令提示符窗口，输入pip install jieba安装即可

源代码如下

import jieba                # 调用jieba库
f_name = '斗破苍穹.txt'      # 文件地址
with open(f_name, encoding='utf-8')as a:    # 将文件放入a中
    b = a.read()            # 对文件进行读操作
words = jieba.lcut(b)       # words是直接生成一个装有词的列表，即list
count = {
    
    }  # 定义一个字典
for word in words:          # 枚举在文章中出现的词汇
    if len(word) < 2:       # 排除字长小于2的词
        continue
    else:                   # 统计词频
        count[word] = count.get(word, 0)+1
list1 = list(count.items())     # 将字典中的键值对转化为列表
list1.sort(key=lambda x: x[1], reverse=True)    # 对列表按照词频从大到小排列
for i in range(10):
    word, number = list1[i]     # 将列表中的word与number提取出来
    print("关键字：{:-<10}频次：{:+>8}".format(word, number))      # 输出word与number值、

猜你喜欢

转载自blog.csdn.net/weixin_52031478/article/details/109357103

Python快速统计文件中高频词

Python高频词统计

统计哈姆雷特文本中高频词的个数

统计高频词

利用jieba实现分词、高频词统计、词性标注

词法分析-利用Jieba实现高频词提取（Python）

统计托福高频词汇

819. Most Common Word 统计高频词（暂未被禁止）

统计文档中前5个高频词个数并输出

运用jieba库寻找高频词

面试者简历的分析（高频词）

（笔记）jieba提取高频词

1-20高频词

seo与python大数据结合给文本分词并提取高频词

Python Counter most_common方法计算一本词典的高频词

【爬虫+情感判定+Top10高频词+词云图】热门弹幕python舆情分析

大数据高频词算法实战（一）

【NLP学习笔记】用jieba实现高频词提取

jieba分词和高频词提取示例代码

如何从大量数据中找出高频词

如何从大量数据中找出高频词？

❤️Java面试高频词《多线程》（建议收藏）❤️

45个高频词的一词多义和固定搭配

python中jieba库筛选高频词语

会计高频词汇

科技无障碍盛会举办，人工智能和创新成为高频词

大数据面试题——如何从大量数据中找出高频词

夺命雷公狗—玩转SEO---45---浅入批量获得高频词

恋练有词考研英语高频词汇思维导图—Unit3

恋练有词考研英语高频词汇思维导图—Unit4

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)