sklearn——TfidfVectorizer笔记 - 代码天地

sklearn——TfidfVectorizer笔记

其他 2020-08-05 16:05:52 阅读次数: 0

代码：

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = ['I had had a dream',
          'My dream will come true']

vectorizer = TfidfVectorizer()
matrix = vectorizer.fit_transform(corpus)
print("特征词IDF值：\n", vectorizer.idf_)
print("特征词TF-IDF矩阵：\n", matrix.toarray())
print("特征词坐标与TF-IDF值：\n", matrix)
print("特征词：\n", vectorizer.get_feature_names())
print("特征词与索引：\n", vectorizer.vocabulary_)

输出：

特征词IDF值：
 [1.40546511 1.         1.40546511 1.40546511 1.40546511 1.40546511]
特征词TF-IDF矩阵：
 [[0.         0.33517574 0.94215562 0.         0.         0.        ]
 [0.47107781 0.33517574 0.         0.47107781 0.47107781 0.47107781]]
特征词坐标与TF-IDF值：
   (0, 1)	0.33517574332792605
  (0, 2)	0.9421556246632359
  (1, 4)	0.47107781233161794
  (1, 0)	0.47107781233161794
  (1, 5)	0.47107781233161794
  (1, 3)	0.47107781233161794
  (1, 1)	0.33517574332792605
特征词：
 ['come', 'dream', 'had', 'my', 'true', 'will']
特征词与索引：
 {'had': 2, 'dream': 1, 'my': 3, 'will': 5, 'come': 0, 'true': 4}

猜你喜欢

转载自blog.csdn.net/qq_38890412/article/details/107593877

sklearn——TfidfVectorizer笔记

tf-idf：sklearn中TfidfVectorizer使用

sklearn CountVectorizer\TfidfVectorizer\TfidfTransformer函数详解

Python sklearn 中的TfidfVectorizer参数解析

sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

sklearn: TfidfVectorizer 中文处理及一些使用参数

理解sklearn.feature.text中的CountVectorizer和TfidfVectorizer

sklearn笔记

文本数据预处理：sklearn中CountVectorizer、TfidfTransformer和TfidfVectorizer

sklearn基础（一）文本特征提取函数CountVectorizer()和TfidfVectorizer()

python.sklearn：文本特征提取，TfidfVectorizer的应用代码，通俗易懂

onehot编码的python详细实现以及使用sklearn中的TfidfVectorizer实现one-hot编码

一个例子来使用sklearn中的TfidfVectorizer

Sklearn学习笔记

【机器学习】sklearn 笔记

sklearn笔记：DBSCAN

sklearn笔记：AgglomerativeClustering

03_数据的特征抽取，sklearn特征抽取API，字典特征抽取DictVectorizer,文本特征抽取CountVectorizer，TF-IDF(TfidfVectorizer),详细案例

sklearn 翻译笔记：KNeighborsClassifier

python之sklearn学习笔记

Sklearn学习笔记二：PCA

sklearn first code 学习笔记

sklearn监督学习笔记

sklearn学习笔记之svm

sklearn学习笔记之开始

【读书笔记】sklearn翻译

sklearn笔记：决策树

Sklearn笔记：度量和评分

Sklearn笔记：超参数优化

sklearn笔记： kneighbors_graph

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)