python实现中文分词和词频统计 - 代码天地

python实现中文分词和词频统计

其他 2018-06-08 20:07:17 阅读次数: 2

python2.7中实现中文分词，是引入了jieba中文分词库。再进行简单的词频统计。

import sys  
reload(sys)  
  
sys.setdefaultencoding('utf-8')  
  
import jieba  
import jieba.analyse  
import xlwt #写入Excel表的库  
  
if __name__=="__main__":  
  
    wbk = xlwt.Workbook(encoding = 'ascii')  
    sheet = wbk.add_sheet("wordCount")#Excel单元格名字  
    word_lst = []  
    key_list=[]  
    for line in open('test.txt'):#test.txt是需要分词统计的文档  
  
        item = line.strip('\n\r').split('\t') #制表格切分  
        # print item  
        tags = jieba.analyse.extract_tags(item[0]) #jieba分词  
        for t in tags:  
            word_lst.append(t)  
  
    word_dict= {}  
    with open("wordCount.txt",'w') as wf2: #打开文件  
  
        for item in word_lst:  
            if item not in word_dict: #统计数量  
                word_dict[item] = 1  
            else:  
                word_dict[item] += 1  
  
        orderList=list(word_dict.values())  
        orderList.sort(reverse=True)  
        # print orderList  
        for i in range(len(orderList)):  
            for key in word_dict:  
                if word_dict[key]==orderList[i]:  
                    wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档  
                    key_list.append(key)  
                    word_dict[key]=0  
      
      
    for i in range(len(key_list)):  
        sheet.write(i, 1, label = orderList[i])  
        sheet.write(i, 0, label = key_list[i])  
    wbk.save('wordCount.xls') #保存为 wordCount.xls文件

得到分词结果：

猜你喜欢

转载自blog.csdn.net/u014694994/article/details/79123442

python实现中文分词和词频统计

中文分词及词频统计

python jieba分词及中文词频统计

Python 分词并统计词频

Python3进行中文文章分词实现词云图与TOP词频统计

python进行分词及统计词频

Python jieba 分词+词频统计

符号分词和词频统计

python进行分词、去停用词和统计词频

python实现词频统计

python英文与中文的词频统计

python 中文分词(规则分词实现，HMM+Viterbi实现统计分词，jieba分词应用)

python自然语言处理（一）之中文分词预处理、统计词频

Python实现简单中文词频统计示例

使用Ansj分词器+Pig来统计中文的词频

利用jieba进行中文分词并进行词频统计

python实现词频统计并展示

词频统计和排序（Python3实现）

自然语言处理学习3：中文分句re.split()，jieba分词和词频统计FreqDist

【文本处理词频统计】python 实现词频统计

python实现中文分词

【python】英文文本分词词频统计

简单的结巴分词与词频统计

jieba分词+collections 词频统计

NLP学习（三）统计分词-基于HMM算法的中文分词-python3实现

中文词频统计

（十七）python网络爬虫实战：A股企业公开年报数据的获取与解析，分词和词频统计

Python利用jieba库实现中文词频统计：以三国演义为例

【python舆情分析（3）】中文分词、词性标注、词频统计及可视化词云输出一步到位

基于jieba库实现中文词频统计

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)