【机器学习】特征提取-TFIDF

TF-IDF

  • 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
  • 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章的特征
  • 词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数
    - 词频/文章总词数
  • 逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大 ,如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力
    - log(总文件数目/包含该词语之文件的数目)
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cutWord():
    con1=jieba.cut("扶门切思君之嘱登高望断天涯路。玲珑骰子安红豆,入骨相思知不知。世人谓我恋长安,其实只恋长安某。山有木兮木有枝")
    con2=jieba.cut("一往情深深几许深山夕照深秋雨 朝暮不依长相思,白首不离长相守。只缘感君一回顾,使我思君朝与暮。衣带渐宽终不悔")
    con3=jieba.cut("一往情深深几许深山夕照深秋雨。长相思兮长相忆,短相思兮无穷极。早知如此绊人心,何如当初莫相识心悦君兮君不知。")
    content1=list(con1)
    content2=list(con2)
    content3=list(con3)
    c1=" ".join(content1)
    c2=" ".join(content2)
    c3=" ".join(content3)
    return c1,c2,c3
 c1,c2,c3=cutWord()
 tf=TfidfVectorizer()
data=tf.fit_transform([c1,c2,c3])
print(tf.get_feature_names())
data.toarray()

结果:

['一往情深', '不依', '不知', '世人', '之嘱', '人心', '何如', '入骨相思', '其实', '几许', '只恋', '只缘', '君兮君', '回顾', '夕照', '天涯', '山有', '当初', '心悦', '思君', '思君朝', '感君', '我恋', '扶门切', '无穷', '早知如此', '有枝', '望断', '朝暮', '木兮木', '深山', '玲珑', '登高', '白首', '相思', '相识', '秋雨', '红豆', '衣带渐宽终不悔', '长安', '长相', '骰子']

array([[0.        , 0.        , 0.16372098, 0.21527341, 0.21527341,
        0.        , 0.        , 0.21527341, 0.21527341, 0.        ,
        0.21527341, 0.        , 0.        , 0.        , 0.        ,
        0.21527341, 0.21527341, 0.        , 0.        , 0.21527341,
        0.        , 0.        , 0.21527341, 0.21527341, 0.        ,
        0.        , 0.21527341, 0.21527341, 0.        , 0.21527341,
        0.        , 0.21527341, 0.21527341, 0.        , 0.        ,
        0.        , 0.        , 0.21527341, 0.        , 0.43054682,
        0.        , 0.21527341],
       [0.21909986, 0.28808999, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.21909986,
        0.        , 0.28808999, 0.        , 0.28808999, 0.21909986,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.28808999, 0.28808999, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.28808999, 0.        ,
        0.21909986, 0.        , 0.        , 0.28808999, 0.21909986,
        0.        , 0.21909986, 0.        , 0.28808999, 0.        ,
        0.21909986, 0.        ],
       [0.20067835, 0.        , 0.20067835, 0.        , 0.        ,
        0.26386791, 0.26386791, 0.        , 0.        , 0.20067835,
        0.        , 0.        , 0.26386791, 0.        , 0.20067835,
        0.        , 0.        , 0.26386791, 0.26386791, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.26386791,
        0.26386791, 0.        , 0.        , 0.        , 0.        ,
        0.20067835, 0.        , 0.        , 0.        , 0.4013567 ,
        0.26386791, 0.20067835, 0.        , 0.        , 0.        ,
        0.20067835, 0.        ]])
发布了5 篇原创文章 · 获赞 0 · 访问量 117

猜你喜欢

转载自blog.csdn.net/weixin_44727383/article/details/104523215