Pyhton学习之中文词频统计（三国人物出场统计、19大报告高频词汇统计） - 代码天地

Pyhton学习之中文词频统计（三国人物出场统计、19大报告高频词汇统计）

其他 2018-06-19 16:11:41 阅读次数: 2

用python程序实现统计三国人物的出场次数的统计，引用强大的jieba库做分词解析，然后根据我们的统计目标，做适当的统计修正。如非人物的词语就需要统计了，再如人物会有多个名称时也需要一起统计。

技术路线：jieba库，数据字典、集合等组合数据类型的应用场景

实现：

#calthtreeKingdowsV1.py
import jieba
def getTxt(paper):
txt = open(paper,'r',encoding="utf-8").read()
txtlist = jieba.lcut(txt)
return txtlist

def main():
zwtxt = getTxt("threeKingdows.txt")
countDict = {}
#定义一个集合，修正非人名
excludes = {'将军','却说','三人','天下','东吴','今日','不敢','魏兵','于是','不可','荆州','二人','如此','不能','商议','如何','军士','左右','军马','引兵','次日','大喜'}
for ch in zwtxt:
if len(ch)==1:
continue
elif ch in excludes:
continue
elif ch == "玄德" or ch == "玄德曰" or ch == "主公":
ch = "刘备"
elif ch == "孔明" or ch == "孔明曰":
ch = "诸葛亮"
elif ch == "孟德" or ch == "孟德曰" or ch == "丞相":
ch = "曹操"
elif ch == "关公" or ch == "云长":
ch = "关羽"
countDict[ch] = countDict.get(ch,0) + 1
itemList = list(countDict.items())
itemList.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
word,count = itemList[i]
print("{}:{}".format(word,count))

main()

PS：没有完全修正完。

延伸，作为信息战线的党员小同志，用python自己统计下19大报告的高频词汇也是必须的。

实现：

#cal19thReportV1.py
import jieba
def getTxt(paper):
txt = open(paper,'r',encoding="utf-8").read()
txtlist = jieba.lcut(txt)
return txtlist

def main():
zwtxt = getTxt("19threport.txt")
countDict = {}
for ch in zwtxt:
if len(ch)==1:
continue
countDict[ch] = countDict.get(ch,0) + 1
itemList = list(countDict.items())
itemList.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
word,count = itemList[i]
print("{}:{}".format(word,count))
main()

PS：对，就是这么短，python 牛，继续。

猜你喜欢

转载自blog.csdn.net/zenobia119/article/details/80156681

Pyhton学习之中文词频统计（三国人物出场统计、19大报告高频词汇统计）

统计托福高频词汇

中文词频统计

三国人物用词统计

python三国演义人物出场统计

《三国演义》之人物出场统计

【Python】Tips: 《三国演义》人物出场统计

Python利用jieba库实现中文词频统计：以三国演义为例

中文词频统计中文词频统计

python从入门到放弃篇16（jieba库，文件操作，for循环）实现三国人物的出场次数统计

三国演义人物词频统计-4

三国演义人物词频统计-3

三国演义人物词频统计-2

三国演义人物词频统计-1

Ubuntu的中文是哪种字体？python的词云分析和三国演义人物出场统计

统计高频词

英文词频统计

中文词频统计与词云生成

作业——04 中文词频统计

python jieba分词及中文词频统计

8-4 《三国演义》人物出场统计（无名单版）python

8-4 《三国演义》人物出场统计（名单版）python

python简单易懂英文词频词汇统计

Python高频词统计

Python-人物词频统计-jieba库-三国演义

完整的英文词频统计

Python-继人物词频统计三国演义之后-三国词云（Wordcloud）

基于jieba库实现中文词频统计

作业：中文词频统计与词云生成

Python实现简单中文词频统计示例

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

keepalived实现LB配置

数据库相关中间件收录集

Spring Boot 入门之 Web 篇（二） Spring Boot 入门之 Web 篇（二）

gitee 搭建个人网站

Java校招基础知识总结（横扫BAT,就业经验交流会演讲稿）

工程管理器

Delphi定位TDataSet数据集最后一条记录

cocos2dx笔记1:概述

Java实现 LeetCode 110 平衡二叉树

MacBook IDEA激活码

每日归档

更多

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)