jieba分词库快速干爆

编程语言 2021-12-14 11:46:59 阅读次数: 0

jieba分词库快速干爆

三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

jieba.cut

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语也可以用 list(jieba.cut(...)) 转化为 list

jieba.lcut()返回的是list

import jieba
s='jieba模块是一个强大的Python分词库'
for i in jieba.cut(s):
    print(i)
print(list(jieba.cut(s)))
print(jieba.lcut(s))
复制代码

全模式cut_all=True 精确模式cut_all=False

默认为False

import jieba
s='jieba模块是一个强大的Python分词库'
print(list(jieba.cut(s,cut_all=True)))
print(list(jieba.cut(s,cut_all=False)))
print(jieba.lcut(s,cut_all=True))
print(jieba.lcut(s,cut_all=False))
复制代码

jieba.cut_for_search

方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

返回的结构都是一个可迭代的 generator

添加词

添加后默认添加的词为一个词

精确模式情况下不再对该词拆分

import jieba
s='jieba模块是一个强大的Python分词库'
jieba.add_word('jieba模块')
print(list(jieba.cut(s)))
print(list(jieba.cut(s,cut_all=True)))
jieba.add_word('Python分词库')
print(jieba.lcut_for_search(s))
复制代码

参考:

猜你喜欢

转载自juejin.im/post/7041386867186466852

jieba分词库快速干爆

安装jieba分词库

中文分词库-jieba

Python中文分词库——jieba

模块 jieba结巴分词库中文分词

Python-jieba中文分词库

基于python的中文分词库jieba简介

半自动安装jieba分词库

NLP自然语言 - jieba分词库

Python中文分词库jieba库

Python中文分词库——jieba的用法

python使用结巴分词(jieba)创建自己的词典/词库

Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理

python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库

python之jieba库的使用，快速分词，词云必备

python中使用jieba分词库编写spark中文版WordCount

jieba分词

分词————jieba分词（Python）

Java 结合中文分词库 jieba 统计一堆文本中各个词语的出现次数【代码记录】

使用Docker快速安装部署ES和Kibana并配置IK中文分词器以及自定义分词拓展词库

【jieba分词】中文分词工具jieba

中文分词原理及jieba分词

中文分词之jieba分词

中文分词（一）：jieba分词

python中文分词库——pynlpir

02 中文分词库实例

jieba分词实战

python jieba分词

jieba分词完整文档

jieba中文分词

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)