jieba介绍
jieba分词器演示
import jieba # jieba分词器 安装方式: 在命令行中进行 pip install jieba
全模式处理
可以将所有可能性的单词进行显示, 缺点:显示的语义很难表达清楚
text = '欢迎和徐老师学习数据挖掘'
split_list = jieba.cut(text, cut_all=True)
print("[全模式]: ", "/ ".join(split_list))
[全模式]: 欢迎/ 和/ 徐/ 老师/ 师学/ 学习/ 数据/ 数据挖掘/ 挖掘
精确模式
split_list = jieba.cut(text, cut_all=False) # 默认为精确模式
print("[精确模式]: ", "/ ".join(split_list))
[精确模式]: 欢迎/ 和/ 徐/ 老师/ 学习/ 数据挖掘
split_list = jieba.lcut(text)
print("[精确模式]: ", "/ ".join(split_list))
[精确模式]: 欢迎/ 和/ 徐/ 老师/ 学习/ 数据挖掘
搜索引擎模式
# 更适用于搜索引擎进行处理
split_list = jieba.cut_for_search(text)
print("[搜索引擎模式]: ", "/ ".join(split_list))
[搜索引擎模式]: 欢迎/ 和/ 徐/ 老师/ 学习/ 数据/ 挖掘/ 数据挖掘
去除停用词
# 去除停用词
stopwords = ['的', '包括', '等', '是'] # 停用词表
text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美,午门是紫禁城的正门。"
# 精确模式
segs = jieba.cut(text, cut_all=False)
final = ''
for seg in segs:
# 如果切分的单词不在停用词表中,就进行输出
if seg not in stopwords:
final += seg
print (final)
seg_list = jieba.cut(final, cut_all=False)
print ("/ ".join(seg_list))
故宫著名景点乾清宫、太和殿和午门。其中乾清宫非常精美,午门紫禁城正门。
故宫/ 著名景点/ 乾/ 清宫/ 、/ 太和殿/ 和/ 午门/ 。/ 其中/ 乾/ 清宫/ 非常/ 精美/ ,/ 午门/ 紫禁城/ 正门/ 。