结巴分析

Tokenize:返回词语在原文的起止位置

注意,输入参数只接受 unicode

示例代码

result = jieba.tokenize(u'永和服装饰品有限公司')   #mode='search' 为搜索模式
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
  • 1
  • 2
  • 3

输出结果

word 永和      start: 0        end:2
word 服装      start: 2        end:4
word 饰品      start: 4        end:6

word 有限公司 start: 6 end:10

并行分词

原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升

基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows

用法:只要在开始分词之前调用如下代码就可以实现并行分词

jieba.enable_parallel(4)# 开启并行分词模式,参数为并行进程数

jieba.disable_parallel() # 关闭并行分词模式
  • 1
  • 2
  • 3

实验结果:在 4 核 3.4GHz Linux 机器上,对金庸全集进行精确分词,获得了 1MB/s 的速度,是单进程版的 3.3 倍。

注意:并行分词仅支持默认分词器 jieba.dt 和jieba.posseg.dt。


猜你喜欢

转载自blog.csdn.net/erinapple/article/details/80573141