jieba的简单使用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/m0_37975258/article/details/81940130

直接上代码吧:

# -*- coding: utf-8 -*
import jieba
import jieba.posseg as pseg
import os,sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
if __name__ == '__main__':
     corpus=["我 来到 北京 清华大学",
     "他 来到 网易 杭研 大厦",
     "小明 硕士 毕业 于 中国 科学院",
     "我 爱 北京 天安门"]
     vectorizer=CountVectorizer()
     transformer=TfidfTransformer()
     tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))
     word=vectorizer.get_feature_names()
     weight=tfidf.toarray()
     for i in range(len(weight)):
          print(u"--------这里输入第",i,u"类文本的词语tf-idf权重-----")
          for j in range(len(word)):
              print(word[j],weight[i][j])

猜你喜欢

转载自blog.csdn.net/m0_37975258/article/details/81940130