版权声明:本文为博主原创文章,转载请标明出处。 https://blog.csdn.net/GXSeveryday/article/details/83351175
根据文本的的特征值,进行特征值的抽取
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
def countvec():
"""
对文本进行特征值化
"""
cv = CountVectorizer()
# 把数据返回给data
data = cv.fit_transform(["life is short,i like python","life is too long,i dislike python"])
# 打印data的值
print("打印data的值:")
print(data)
# 统计所有文章中点给钱所有的词,重复只看做一次
print(cv.get_feature_names())
# 对每篇文章,在词的列表里面进行统计每个词出现的次数,单个字母不进行统计
print("将数据转换成数组形式:")
print(data.toarray())
return None
if __name__ == "__main__":
countvec()