【python数据处理】jieba分词

jieba(结巴)是一个强大的分词库,完美支持中文分词 

三种分词模式

import jieba

s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'
cut = jieba.cut(s)

#三种模式
print( '【Output】精确模式:')
print (cut)
print ('/'.join(cut))

print( '【Output】全模式:')
print ('/'.join(jieba.cut(s,cut_all = True)))

print( '【Output】搜索引擎模式:')
print('/'.join(jieba.cut_for_search(s)))

 结果

 词性分析

import jieba
import jieba.posseg as psg

s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'
cut = jieba.cut(s)


print ('【Output】')
for x in psg.cut(s):
    if (x.flag.startswith('n')):
        print([x.word,x.flag])

结果

高频词统计 

 由于不给条件会把 的 吧 这种无意义的词选入 所以给了一个限制len(x)>=2

import jieba
import jieba.posseg as psg
from collections import Counter

s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'
cut = jieba.cut(s)

santi_text = open('st.txt',encoding='utf-8').read()
santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]
jieba.disable_parallel()
c = Counter(santi_words).most_common(20)
print (c)

猜你喜欢

转载自blog.csdn.net/yt627306293/article/details/83828038
今日推荐