结巴分词器理解

jieba介绍

在这里插入图片描述
在这里插入图片描述

jieba分词器演示

import jieba # jieba分词器 安装方式: 在命令行中进行 pip install jieba

全模式处理
可以将所有可能性的单词进行显示, 缺点:显示的语义很难表达清楚

text = '欢迎和徐老师学习数据挖掘'
split_list = jieba.cut(text, cut_all=True)
print("[全模式]: ", "/ ".join(split_list))
[全模式]:  欢迎/// 老师/ 师学/ 学习/ 数据/ 数据挖掘/ 挖掘

精确模式

split_list = jieba.cut(text, cut_all=False) # 默认为精确模式
print("[精确模式]: ", "/ ".join(split_list))
[精确模式]:  欢迎/// 老师/ 学习/ 数据挖掘
split_list = jieba.lcut(text)
print("[精确模式]: ", "/ ".join(split_list))
[精确模式]:  欢迎/// 老师/ 学习/ 数据挖掘

搜索引擎模式

# 更适用于搜索引擎进行处理
split_list = jieba.cut_for_search(text)
print("[搜索引擎模式]: ", "/ ".join(split_list))
[搜索引擎模式]:  欢迎/// 老师/ 学习/ 数据/ 挖掘/ 数据挖掘

去除停用词

# 去除停用词
stopwords = ['的', '包括', '等', '是'] # 停用词表
text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美,午门是紫禁城的正门。"
# 精确模式
segs = jieba.cut(text, cut_all=False)
final = ''
for seg in segs:
    # 如果切分的单词不在停用词表中,就进行输出
    if seg not in stopwords:
            final += seg
print (final)
seg_list = jieba.cut(final, cut_all=False)
print ("/ ".join(seg_list))

故宫著名景点乾清宫、太和殿和午门。其中乾清宫非常精美,午门紫禁城正门。
故宫/ 著名景点/ 乾/ 清宫/ 、/ 太和殿/ 和/ 午门/ 。/ 其中/ 乾/ 清宫/ 非常/ 精美/ ,/ 午门/ 紫禁城/ 正门/ 。

jieba是个好东西,NLP神器!!!

发布了89 篇原创文章 · 获赞 42 · 访问量 3672

猜你喜欢

转载自blog.csdn.net/weixin_43673156/article/details/104980413