版权声明:请大家使用时记得显示原创的博主哦!! https://blog.csdn.net/qq_33472765/article/details/86427885
Git参考:https://github.com/fxsjy/jieba
jieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。
它支持三种分词模式
- 精确模式:试图将句子最精确地切开,适合文本分析;
- 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
- 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
另外它还自带有关键词摘取算法。
- 基于 TF-IDF 算法的关键词抽取
- 基于 TextRank 算法的关键词抽取
思路
- 读取数据源
- 加载停用词库
- 循环对每一篇文章进行分词
- 普通分词,需要手工进行停用词过滤
- TF-IDF关键词抽取,需要使用停用词库
- textrank关键词抽取,只取指定词性的关键词
- 对结果进行词频统计
- 输出结果到csv文件
python结巴分词下面目录介绍参考:https://blog.csdn.net/u012052268/article/details/77825981
jieba中文分词简介
中文分词的原理
1 基于规则
2 基于统计
3 jieba的原理
安装结巴jieba
jieba三种分词模式以及其应用
jieba增强功能-加载自定义词典
1 载入新自定义词典
2 载入停用词表
jieba分词的其他应用
1 关键词提取
2 词性标注
用jieba分词实战含文件的读取与存储