结巴分词参考地址

版权声明:请大家使用时记得显示原创的博主哦!! https://blog.csdn.net/qq_33472765/article/details/86427885

Git参考:https://github.com/fxsjy/jieba

jieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。

它支持三种分词模式

  • 精确模式:试图将句子最精确地切开,适合文本分析;
  • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

另外它还自带有关键词摘取算法。

  • 基于 TF-IDF 算法的关键词抽取
  • 基于 TextRank 算法的关键词抽取

思路

  1. 读取数据源
  2. 加载停用词库
  3. 循环对每一篇文章进行分词
    • 普通分词,需要手工进行停用词过滤
    • TF-IDF关键词抽取,需要使用停用词库
    • textrank关键词抽取,只取指定词性的关键词
  4. 对结果进行词频统计
  5. 输出结果到csv文件

python结巴分词下面目录介绍参考:https://blog.csdn.net/u012052268/article/details/77825981

    jieba中文分词简介
    中文分词的原理
        1 基于规则
        2 基于统计
        3 jieba的原理
    安装结巴jieba
    jieba三种分词模式以及其应用
    jieba增强功能-加载自定义词典
        1 载入新自定义词典
        2 载入停用词表
    jieba分词的其他应用
        1 关键词提取
        2 词性标注
    用jieba分词实战含文件的读取与存储
 

猜你喜欢

转载自blog.csdn.net/qq_33472765/article/details/86427885
今日推荐