机器学习特征值特征抽取

版权声明:本文为博主原创文章,转载请标明出处。 https://blog.csdn.net/GXSeveryday/article/details/83351175

根据文本的的特征值,进行特征值的抽取

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer

def countvec():
    """
    对文本进行特征值化
    """
    cv = CountVectorizer()
    # 把数据返回给data
    data = cv.fit_transform(["life is short,i like python","life is too long,i dislike python"])
    
    # 打印data的值
    print("打印data的值:")
    print(data)
    
    # 统计所有文章中点给钱所有的词,重复只看做一次
    print(cv.get_feature_names())
    
    
    # 对每篇文章,在词的列表里面进行统计每个词出现的次数,单个字母不进行统计
    print("将数据转换成数组形式:")
    print(data.toarray())
    
    
    return None


if __name__ == "__main__":
    countvec()

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/GXSeveryday/article/details/83351175
今日推荐