python之jieba库的使用,快速分词,词云必备

jieba库的三种分词模式

精确模式:将文本精确地切开,分词后无冗余,适合文本分词,最常用的分词模式。

	jieba.cut(s) 	精确模式,分词后返回一个迭代器,用for...in形式遍历结果
	jieba.lcut(s)	精确模式,分词后返回一个列表
			jieba.lcut("新时代中国特色社会主义")
			输出结果:['新',‘时代’,‘中国’,‘特色’,‘社会主义’]

全模式:把文本中所有可能成词的词语都扫描出来,速度快,不能解决歧义。

	jieba.cut(s, cut_all = True)	全模式,分词后返回一个迭代器,用for...in形式遍历结果
			示例:
			jieba.cut("新时代中国特色社会主义", cut_all = True)
	jieba.lcut(s, cut_all = True)	全模式,分词后返回一个列表
			示例:
			jieba.lcut("新时代中国特色社会主义", cut_all = True)
			输出结果:[‘新’,‘时代’,‘中国’,‘国特’,‘特色’,‘社会’,‘社会主义’,‘会主’,‘主义’]

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高回召回率。

	jieba.cut_for_search(s)	搜索引擎模式,分词后返回一个迭代器,用for...in形式遍历结果
		示例:
		jieba.cut_for_search(“新时代中国特色社会主义”)
	jieba.lcut_for_search(s)	搜索引擎模式,分词后返回一个列表
		示例:
		jieba.lcut_for_search(“新时代中国特色社会主义”)
		输出结果:['新','时代','中国','特色','社会','会主','主义',社会主义']

jieba.add_word(w): 向分词词典增加新词w

示例:
	jiaba.add_word("蟒蛇语言")
	jieba.lcut(“python也被称作蟒蛇语言”)
	输出结果:['python','也','被称作',‘蟒蛇语言’]
发布了44 篇原创文章 · 获赞 16 · 访问量 2385

猜你喜欢

转载自blog.csdn.net/qq_46292926/article/details/105100656