python对红楼梦的每一章节进行词频统计

其他 2021-03-06 15:49:24 阅读次数: 0

python对红楼梦的每一章节进行词频统计

import jieba
f=open("G:\\红楼梦.txt","r",encoding="utf-8")
txt=f.read()
words=jieba.lcut(txt)#精准模式
ls=[]
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201030001436824.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RkbDMyMDcyMQ==,size_16,color_FFFFFF,t_70#pic_center)

for word in words:
    a={
    
    }
    if word[0] == "第" and word[-1] == "回":
        if word in ls:
            continue
        else:
            ls.append(word)
print(ls)

for i in range(len(ls)):
    print(ls[i])
    a={
    
    }
    if i<len(ls)-1:
        for word in words[words.index(ls[i])+1:words.index(ls[i + 1])]:
            if len(word) == 1:  # 排除单个字符的统计结果
                continue
            else:
                a[word] = a.get(word, 0) + 1

    elif i ==len(ls)-1:#最后一回

        for word in words[words.index(ls[i])+1:]:
            if len(word) == 1:  # 排除单个字符的统计结果
                continue
            else:
                a[word] = a.get(word, 0) + 1

    items = list(a.items())  # 将字典转换为记录列表
    items.sort(key=lambda x: x[1], reverse=True)  # 记录第二列排序


    for i in range(5):
        word, count = items[i]
        print("{0:<10}{1:>5}".format(word, count))
    print("\n")


f.close()

第一步是打开红楼梦.txt文件，只读的方式，使用UTF-8编码方式
第二步是使用精准模式，将单词保存到words列表中，再将“第几回”存放到一个新的列表中，便于对红楼梦文件每一回进行切片，切边的界点便是第多少回这样的字眼，第一种统计是第i回到第i+1回的之间的词频统计，还有一种就是最后一回的词频统计。
使用一个字典类型a={}，统计单词的次数：

for word in words:
    if len(word)==1:#排除单个字符的统计结果
        continue
    else:
        a[word]=a.get(word,0)+1

如果字符长度为1则跳过，否则使用a.get(word,0)方法表示：如果word在a中则返回word对应的值，如果word不在a中就返回0。
第三步是对单词的统计的值从高到低进行排序，输出前5个高频词语，并格式化打印输出。由于字典没有顺序，需要将其转换为有顺序的列表类型，再使用sort()方法和lambda函数配合实现单词出现的次数，对元素进行排序。最后输出排序结果前15位的单词。

items=list(a.items())#将字典转换为记录列表
items.sort(key=lambda x:x[1],reverse=True)#记录第二列排序

运行结果

猜你喜欢

转载自blog.csdn.net/tdl320721/article/details/109376046

python对红楼梦的每一章节进行词频统计

Python 红楼梦的字频与词频统计

python红楼梦词频统计

python 学习红楼梦字频统计 DAY17

红楼梦人物出场统计

Python 中文词频分析——红楼梦人物出场次数

红楼梦诗词

红楼梦（上）

Python3红楼梦人名出现次数统计分析

红楼梦好了歌

红楼梦（下）爱情

红楼梦 + 写入 MySQL

python 爬虫入门--抓取红楼梦小说

红楼梦第一回ruby优化

从《红楼梦》看古代贵族如何过重阳节

红楼梦之读后感

红楼梦读书笔记

读书笔记-红楼梦

【读后感】红楼梦

红楼梦词云分析

红楼梦各版本及资料

读《红楼梦》有感

走进红楼梦智慧树答案

ruby红楼梦可视化

红楼梦-那人那事

1-16 python第一章节练习

在DOM这一章节关于Text类型

汇编语言第一章节

第一章节测试

nginx 学习第一章节

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)