二级python——jieba库（必选）

其他 2020-03-03 10:26:58 阅读次数: 0

文章目录

jieba库（“结巴”库）
jieba库的三种分词模式

精确模式：jieba.lcut()
搜索引擎模式：jieba.lcut_for_search()
全模式：jieba.lcut(s, cut_all=True)
jieba.add_word()

jieba库（“结巴”库）

重要的第三方中文分词函数库
由于中文文本中的单词不是通过空格或者标点符号分割的，中文及类似的语言存在一个重要的分词问题
一个利用了中文词库，将带分的词与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组

jieba库的三种分词模式

精确模式：适合文本分析，冗余度较低
全模式：句子中所有可能的词都分出来，速度很快，但不能解决起义问题，冗余度最高
搜索引擎模式：在精确模式的基础上，将长词再分

精确模式：jieba.lcut()

最常用的中文分词函数

>>> import jieba
>>> jieba.lcut("全国计算机等级考试")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built successfully.
['全国', '计算机', '等级', '考试']

搜索引擎模式：jieba.lcut_for_search()

先进行精确模式，再进行长词切分

>>> jieba.lcut_for_search("全国计算机等级考试")
['全国', '计算', '算机', '计算机', '等级', '考试']

全模式：jieba.lcut(s, cut_all=True)

>>> jieba.lcut("全国计算机等级考试", cut_all=True)
['全国', '国计', '计算', '计算机', '算机', '等级', '考试']

实在没想好，就采用搜索引擎模式，冗余度中等

jieba.add_word()

用来向jieba词库添加新的单词

>>> jieba.lcut("全国计算机等级考试python科目")
['全国', '计算机', '等级', '考试', 'python科目']

我是小杨我就这样

发布了203 篇原创文章 · 获赞 56 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44478378/article/details/104588020

二级python——jieba库（必选）

二级python——PyInstaller库

二级Python

python二级

二级python——标准库（random库）

二级python——标准库（turtle库）

计算机二级Python刷题笔记------基本操作题1、4、6（考察jieba函数）

二级python——词云wordcloud库

Python二级总结

数据库二级题

二级Python总结版

Python二级-----------程序冲刺5

二级Python中的pass语句

计算机二级Python

二级python——文本词频统计

二级python——软文的诗词风

二级python——复数类型

二级python——程序运行计时

二级python——园的面积

python二级模拟题

【python二级-练习题】

python二级考试精选

Python库：jieba库

二级python和二级c哪个简单,计算机二级python和c

二级python和二级c哪个简单,二级c语言和二级python

c语言二级用的什么软件,二级c语言和二级python

Python常用第三方库（计算机二级）

二级python——第三方库的获取和安装

二级python——第三方库的纵览

计算机二级（Python）__第三方库

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)