jieba(结巴)是一个强大的分词库,完美支持中文分词
三种分词模式
import jieba
s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'
cut = jieba.cut(s)
#三种模式
print( '【Output】精确模式:')
print (cut)
print ('/'.join(cut))
print( '【Output】全模式:')
print ('/'.join(jieba.cut(s,cut_all = True)))
print( '【Output】搜索引擎模式:')
print('/'.join(jieba.cut_for_search(s)))
结果
词性分析
import jieba
import jieba.posseg as psg
s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'
cut = jieba.cut(s)
print ('【Output】')
for x in psg.cut(s):
if (x.flag.startswith('n')):
print([x.word,x.flag])
结果
高频词统计
由于不给条件会把 的 吧 这种无意义的词选入 所以给了一个限制len(x)>=2
import jieba
import jieba.posseg as psg
from collections import Counter
s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'
cut = jieba.cut(s)
santi_text = open('st.txt',encoding='utf-8').read()
santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]
jieba.disable_parallel()
c = Counter(santi_words).most_common(20)
print (c)