结巴分词基础

# -*- conding:utf-8 -*-
import jieba
from jieba.analyse import TFIDF,extract_tags,tfidf
jieba.initialize()
res = jieba.cut("seo是什么")  # 返回生成器
for item in res:
    print(item)
#lcut()普通模式,分出更少的词,返回列表
list_res  = jieba.lcut("我在北京大学读研究生")
print(','.join(list_res))

#lcut_for_search 搜索引擎模式,分出更多的词,返回列表
jieba.add_word('读研究生') #单独增加一个分词
more_res = jieba.lcut_for_search("我在北京大学读研究生")
print(more_res)

#自定义分词器
zdy = jieba.Tokenizer(dictionary = './keywords.txt')
ww = zdy.lcut("嫦娥五号发射成功")
print(ww)

#加载用户自定义词典,推荐使用
ww1 = jieba.load_userdict('./keywords.txt')
ww2 = jieba.lcut('嫦娥五号发射成功')
print(ww2)


# -*- conding:utf-8 -*-
import jieba
from jieba.analyse import TFIDF, extract_tags, tfidf, textrank

jieba.initialize()
text = "不管你学什么,只要你学的精通了都比较有钱途,刚学网络营销应该没有php赚钱,但是以后就很难说了" \
       "对网络营销不是很了解,但是php还是比较了解,根据你的工作经验工资一定会一年比一年高,"\
       "虽然不至于赚什么大钱,但是也饿不死,属于所谓的白领吧....其他答案:钱途当然是网络营销啊,PHP只是光做编程"
# text 文本内容,topK 默认20个关键词, withWeight 返回网站权重
cotent  = extract_tags(text,topK =5, withWeight = True)
# textrank是另外一种计算权重算法
other = textrank(text,topK =5, withWeight = True)
print(cotent)
print(other)



import jieba
import jieba.posseg as psg

jieba.initialize()
res = psg.lcut('嫦娥五号发射成功')   #词性划分
for c , x in res:
    print(c , x)

猜你喜欢

转载自blog.csdn.net/haohaomax1/article/details/111398307