《白鹿原》词频统计
类型:Python 文件
附件是《白鹿原》原著内容,请读入内容,分词后输出长度大于 2 且最多的单词。
如果存在多个单词出现频率一致,请输出按照 Unicode 排序后最大的单词。
示例 1:
输入:无
输出:"白鹿原"
注意:示例 1 是一个输入输出示范样例,不是正确结果
答案:
import jieba
from collections import Counter
# 读取《白鹿原》原著内容
with open('白鹿原.txt', 'r', encoding='utf-8') as file:
text = file.read()
# 对原著内容进行分词
words = jieba.cut(text)
# 统计单词出现频率
word_counts = Counter(words)
# 筛选长度大于2的单词
filtered_words = [word for word in word_counts.keys() if len(word) > 2]
# 找到出现频率最高的单词
max_count = max(word_counts[word] for word in filtered_words)
most_frequent_words = [word for word in filtered_words if word_counts[word] == max_count]
# 按照Unicode排序
most_frequent_words.sort()
# 输出结果
print(most_frequent_words[-1])
注意,程序中的’白鹿原.txt’表示《白鹿原》原著内容文件的名称,请根据实际情况修改该文件名。