模块jieba库的使用

模块jieba库的使用

一 jieba库基本介绍

1.1 jieba库的概念

jieba库是优秀的中文分词第三方库
  • 中文文本需要通过分词获得单个的词语
  • jieba是优秀的中文分词第三方库,需要额外安装
  • jieba库提供三种分词模式,最简单只需掌握一个函数

1.2 jieba库的安装

pip install jieba (cmd命令行)

1.3 jieba分词的原理

jieba分词依靠中文词库
  • 利用一个中文词库,确定汉字之间的关系概念
  • 汉字间概率大的组成词组,形成分词结果
  • 除了分词,用户还可以添加自定义的词组

jieba库使用说明

2.1 jieba分词的三种模式

  • 精确模式:把文本精确的切分开,不存在冗余单词
  • 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • 搜索引擎模式:在精确模式基础上,对长词再次切分

2.2 jieba库常用函数

2.3 分词要点

下面是代码演示

import jieba
txt = '中国,是以华夏文明为源泉、中华文化为基础,并以汉族为主体民族的多民族国家,通用汉语、汉字,汉族与少数民族被统称为“中华民族”,又自称为炎黄子孙、龙的传人。'
# 精确模式
# res = jieba.cut(txt)  # 获取可迭代对象
 
res = jieba.lcut(txt)  # 生成的是一个列表
 
# 全模式
# res1 = jieba.cut(txt, cut_all=True)  # 获取可迭代对象
 
res1 = jieba.lcut(txt, cut_all=True) # 生成的是一个列表
 
 
# 搜索引擎模式
# res2 = jieba.cut_for_search(txt)  # 获取可迭代对象
 
res2 = jieba.lcut_for_search(txt)  # # 生成的是一个列表
 
# for i in res2:
 
print(res2)

猜你喜欢

转载自www.cnblogs.com/everuse/p/11754646.html