二级python——jieba库(必选)

jieba库(“结巴”库)

  • 重要的第三方中文分词函数库
  • 由于中文文本中的单词不是通过空格或者标点符号分割的,中文及类似的语言存在一个重要的分词问题
  • 一个利用了中文词库,将带分的词与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组

jieba库的三种分词模式

  • 精确模式:适合文本分析,冗余度较低
  • 全模式:句子中所有可能的词都分出来,速度很快,但不能解决起义问题,冗余度最高
  • 搜索引擎模式:在精确模式的基础上,将长词再分

精确模式:jieba.lcut()

最常用的中文分词函数

>>> import jieba
>>> jieba.lcut("全国计算机等级考试")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built successfully.
['全国', '计算机', '等级', '考试']

搜索引擎模式:jieba.lcut_for_search()

先进行精确模式,再进行长词切分

>>> jieba.lcut_for_search("全国计算机等级考试")
['全国', '计算', '算机', '计算机', '等级', '考试']

全模式:jieba.lcut(s, cut_all=True)

>>> jieba.lcut("全国计算机等级考试", cut_all=True)
['全国', '国计', '计算', '计算机', '算机', '等级', '考试']

实在没想好,就采用搜索引擎模式,冗余度中等

jieba.add_word()

用来向jieba词库添加新的单词

>>> jieba.lcut("全国计算机等级考试python科目")
['全国', '计算机', '等级', '考试', 'python科目']
发布了203 篇原创文章 · 获赞 56 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_44478378/article/details/104588020