python第三方库之jieba库使用

前言：

今天分享一个优秀的中文分词库 jieba，学习一个第三方库最好的方式就是去它的官方网站或者github上看看~
github 网址：点击----> jieba

引入:

‘ “结巴”中文分词：做最好的 Python 中文分词组件’ 这是作者开篇引入时写的~ 如果你不这么认为的话，那么接着看

具体代码~(说明： kk的fans不要爆破我…)

import jieba

seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球")  # 默认是精确模式
print("/ ".join(seg_list))
#
seg_list = jieba.cut_for_search("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球")  # 搜索引擎模式
print("/".join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Administrator\AppData\Local\Temp\jieba.cache
Full Mode: 全民/ 制作/ 作人/ 人们/ 大家/ 好/ 我/ 是/ 练习/ 时长/ 两年/ 年半/ 的/ 个人/ 练习/ 练习生/ 蔡/ 徐/ 坤/ 我/ 喜欢/ 欢唱/ 跳/ rap/ 篮球
Loading model cost 0.930 seconds.
Default Mode: 全民/ 制作/ 人们/ 大家/ 好/ 我/ 是/ 练习/ 时/ 长/ 两年/ 半/ 的/ 个人/ 练习生/ 蔡/ 徐坤/ 我/ 喜欢/ 唱/ 跳/ rap/ 篮球
Prefix dict has been built succesfully.
全民/ 制作/ 人们/ 大家/ 好/ 我/ 是/ 练习/ 时/ 长/ 两年/ 半/ 的/ 个人/ 练习生/ 蔡/ 徐坤/ 我/ 喜欢/ 唱/ 跳/ rap/ 篮球
全民/制作/人们/大家/好/我/是/练习/时/长/两年/半/的/个人/练习/练习生/蔡/徐坤/我/喜欢/唱/跳/rap/篮球

注解：
平常在开发的时候一般是使用默认模式，也就是精确模式。从结果看，如果想把蔡徐坤添加成一个词该怎么办呢？别急接下去看~

具体代码

import jieba
seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球")  # 默认是精确模式
jieba.suggest_freq('蔡徐坤',True)
print("/".join(seg_list))
#结果
#全民/制作/人们/大家/好/我/是/练习/时/长/两年/半/的/个人/练习生/蔡徐坤/我/喜欢/唱/跳/rap/篮球

注解：
这样我们就实现了自定义添加新词到字典中~

附加网址 - - - ->>>>[通过用户自定义词典来增强歧义纠错能力] (ps:里面有jieba库开发者~)(https://github.com/fxsjy/jieba/issues/14)

常见问题：

模型的数据是如何生成的？

详见：点击这里
“台中”总是被切成“台中”？（以及类似情况）

P(台中) ＜ P(台)×P(中)，“台中”词频不够导致其成词概率较低

解决方法：强制调高词频

jieba.add_word(‘台中’) 或者 jieba.suggest_freq(‘台中’, True)
“今天天气不错”应该被切成“今天天气不错”？（以及类似情况）

解决方法：强制调低词频

jieba.suggest_freq((‘今天’, ‘天气’), True)

或者直接删除该词 jieba.del_word(‘今天天气’)
更多问题请点击：点击这里

python第三方库之jieba库使用

猜你喜欢