【每日一个GitHub项目】jieba “结巴”Python中文分词

jieba


地址:https://github.com/fxsjy/jieba
作者:Sun Junyi

jiebaPython中文分词是我在做期末作业的时候,偶然找到的。
jieba词云组合使用可以对文章进行分析,并取出高频词形成词云。
下图是我的期末作业,对最近大火的《隐秘的角落》原著小说《坏小孩》的分词加词云处理。
对《坏小孩》的高频词提取
jieba有四种分词模式

  • 精确模式,会把句子最精确地切开,适合文本分析
  • 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
  • paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本,请升级jieba,pip install jieba --upgrade

jieba特点

  • 支持繁体分词
  • 支持自定义词典
  • MIT授权协议

有多种语言实现

猜你喜欢

转载自blog.csdn.net/qq_43479203/article/details/107400331