python.sklearn：文本特征提取，TfidfVectorizer的应用代码，通俗易懂

其他 2019-03-08 03:43:19 阅读次数: 0

版权声明：可以转载，请标明作者和来源。原创首发http://kakazai.cn https://blog.csdn.net/yeziand01/article/details/85951581

TfidfVectorizer

所属模块：sklearn

功能：原始文本转化为tf-idf的特征矩阵，从而为后续的文本相似度计算，奠定基础

该网站可在线测试本文代码，以便快速理解本文代码：http://kakazai.cn/index.php/Kaka/Python/query/name/TfidfVectorizer

实例1：普通例子

#!/usr/bin/python3n
#code-python(3.6)
from sklearn.feature_extraction.text import TfidfVectorizer

document = ['This is a dog!' ,'that is an ...apple.']
'''
这里有两个文档，文档0是‘this is a dog’，文档1是’that is a cat’。
每个文档都是一个样本点。
'''

model = TfidfVectorizer().fit(document)
'''
(1)   fit()会先分析语料库，提取词典等；
(2)   从两个文档中，将所有大写转小写，去掉所有符号。
再分别提出的词语集合['this', 'is', 'a', 'dog']，['that', 'is', 'an', 'apple']。
(3)   对两个集合去重，得到[‘a','an', 'apple', 'dog', 'is', 'that', 'this']。
但这里面有的词语不在该语料库中，比如'a'，要剔除。
得到词语集合['an', 'apple', 'dog', 'is', 'that', 'this']。
每个词语都是一个特征。
'''

print(model.get_feature_names())
'''
从文档中提取的词语(特征) = ['an', 'apple', 'dog', 'is', 'that', 'this']
'''

print(model.vocabulary_)
'''
返回词语与索引 = {'an': 0, 'apple': 1'，dog': 2,'is': 3,'that': 4, 'this': 5}
表示'an'是第一个特征，'apple'是第二个特征，'this'是最后一个特征，共6个特征。
'''

print(model.idf_)
'''
[1.40 1.40 1.40 1  1.40 1.40]
'''
matrix = model.transform(document)    # transform()会把每篇文档转换为向量；得到tf-idf矩阵；

print(matrix.shape)    
#矩阵是2行6列；即有2个文档，每个文档有6个词语(特征)

print(matrix)
'''
稀疏矩阵表示法
(0, 5)	0.63	#文档0的第5个特征this的权重值是0.63
(0, 3)	0.44
(0, 2)	0.63
(1, 4)	0.53	#文档1的第4个特征that的权重值是0.53
(1, 3)	0.37
(1, 1)	0.53
(1, 0)	0.53
'''
print(matrix.todense())    # 转化为更直观的一般矩阵
'''
[[0      0      0.63    0.44   0.     0.63]
 [0.53   0.53   0       0.37   0.53   0   ]]
'''

猜你喜欢

转载自blog.csdn.net/yeziand01/article/details/85951581

python.sklearn：文本特征提取，TfidfVectorizer的应用代码，通俗易懂

机器学习之路：python 文本特征提取 CountVectorizer, TfidfVectorizer

sklearn基础（一）文本特征提取函数CountVectorizer()和TfidfVectorizer()

文本特征抽取TfidfVectorizer(特征工程之特征提取)

【机器学习】特征工程 - 文本特征提取TfidfVectorizer

python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

python学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理

基于sklearn的文本特征提取与分类

sklearn 特征提取

通俗易懂的机器学习——sklearn集成学习代码实现

文本特征提取

sklearn字典特征提取

python#特征工程和文本特征提取

文本特征提取实践

文本特征提取方法

sklearn文本特征提取与“达观杯”文本智能处理挑战赛

特征提取—文本，字典特征提取

sklearn中的特征提取（important）

机器学习之sklearn特征提取

sklearn数据集特征提取操作

字典特征提取、文本特征提取、jieba分词处理、tf-idf文本特征提取概念及代码实现

python学习文本特征提取(一) DictVectorizer

文本特征：特征提取（一）

特征提升之特征提取-基于文本数据的DictVectorizer，TfidfVectorizer在去掉停用词和不去停用词条件下的分析

文本表示与文本特征提取的区别

特征提取、特征描述、特征匹配的通俗解释

python图像特征提取

python—sift特征提取

时间序列特征提取的Python和Pandas代码示例

Python OpenCV SIFT特征提取的原理与代码实现

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)