基于java实现的分词以及词频统计，准备制作词云数据 - 代码天地

基于java实现的分词以及词频统计，准备制作词云数据

其他 2020-09-11 10:33:16 阅读次数: 0

需求是统计一篇文章、一段话中各种词汇出现的次数，比如有一篇文章如下：为维护人民健康提供有力保障，希望统计文章中的高频词，如下结果
在这里插入图片描述
难点在于分词，例如这段换：工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作,如果分的不好，那会十分的尴尬！！！

找了很多工具，在网上发现一个比较合适的分词算法，且是用java实现的，经过简单改动，实现了功能，代码放在gitee上，地址：https://gitee.com/langhu/jieba-analysis-mend

导下项目后长这个样子：
在这里插入图片描述
直接运行com.qianxinyao.analysis.jieba.keyword包下的main方法即可

问题：在这个工具中，通过训练过的算法，给出了很多词汇切割的标准，但发现有些新词汇，特别是专有词汇它并不能很好的识别，比如文中的新冠肺炎，它就拆成了新冠和肺炎，这个怎么处理呢？

1、要么你去训练算法，如果你牛。

2 直接改分词规则（可能会破坏算法的合理性），我不牛，所以我改

怎么改，肯定不能瞎改，找到dict.txt，找一个和你要统计的词汇，在拼音顺序上差不多的词，直接按照它的格式来，如下：我想加一个新冠肺炎，于是找到了它的邻居新官，没的说，复制新官改成新冠肺炎，再试一下截图如下：

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/leisure_life/article/details/106591511

基于java实现的分词以及词频统计，准备制作词云数据

运用jieba库统计词频及制作词云

对京东商品评论进行词频统计并制作词云

python 简单实现jieba库分词制作词云

python实现jieba库分词制作词云

python实现中文分词和词频统计

词频统计（Java实现）

Java实现词频统计

Python制作词云

Python 分词并统计词频

中文分词及词频统计

jieba.analyse的使用：提取关键字/词频制作词云

用Python实现商品评论制作词云分析

R语言制作词云

使用python制作词云

简单的结巴分词与词频统计

符号分词和词频统计

python进行分词及统计词频

Python jieba 分词+词频统计

jieba分词+collections 词频统计

Spark基于Java Api 的词频统计

Spark 大数据中文分词统计（二） Java语言实现分词统计

JAVA小程序——实现词频统计

Hadoop实现词频统计（按照词频降序排列以及相同词频的单词按照字母序排列）

python实现分词和词云制作

Python值itchat制作词云代码

用Python制作词云——————python

Python制作词云--stylecloud简单使用

爬取bilibili弹幕制作词云

Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)