python 之计算词典和词频矩阵 - 代码天地

python 之计算词典和词频矩阵

其他 2018-12-18 22:13:04 阅读次数: 0

词典构造：每个单词对应一个数字ID 。words列表里的单词排序，不知道以何原理。

词频矩阵：col 数为单词的个数，列数为文本的个数。

from collections import Counter
from itertools import chain
import numpy as np
documents = ["Human machine interface for lab abc computer applications",
             "A survey of user opinion of computer system response time",
             "The EPS user interface management system",
             "System and human system engineering testing of EPS",
             "Relation of user perceived response time to error measurement",
             "The generation of random binary unordered trees",
             "The intersection graph of paths in trees",
             "Graph minors IV Widths of trees and well quasi ordering",
             "Graph minors A survey"]
def word_matrix(documents):
    '''计算词频矩阵'''
    # 所有字母转换位小写
    docs = [d.lower() for d in documents]
    # 分词
    docs = [d.split() for d in docs]
    # 获取所有词
    words = list(set(chain(*docs)))
    #print(words)
    # 词到ID的映射, 使得每个词有一个ID
    dictionary = dict(zip(words, range(len(words))))
    #print(dictionary)
    # 创建一个空的矩阵, 行数等于词数, 列数等于文档数
    matrix = np.zeros((len(words), len(docs)))
    # 逐个文档统计词频
    for col, d in enumerate(docs):  # col 表示矩阵第几列，d表示第几个文档。
        # 统计词频
        count = Counter(d)#其实是个词典，词典元素为：{单词：次数}。
        for word in count:
            # 用word的id表示word在矩阵中的行数，该文档表示列数。
            id = dictionary[word]
            # 把词频赋值给矩阵
            matrix[id, col] = count[word]
    return matrix, dictionary

matrix, dictionary = word_matrix(documents)
print(matrix,'\n',dictionary)

二、词频矩阵matrix构建完成之后，求得TF矩阵和IDF矩阵，两个矩阵相乘，便得到每个单词的tf-idf在每个文档里面的值。之前的理解没有大局观。tf-idf模型中的tf和idf不是孤立存在的，由一个矩阵演化而来。

猜你喜欢

转载自blog.csdn.net/qq_34333481/article/details/84661938

python 之计算词典和词频矩阵

矩阵分析课后题部分题目之计算机辅助(python)

python位运算之计算中位数

python之计算机硬件

【Python打卡2019】20190417之计算BMR

玩转python之计算数列的值

Python-统计值计算、词频统计

Python - - - numpy的矩阵计算

Python矩阵计算

Python基础（3）序列和词典

python实现中文分词和词频统计

Python全栈之计算机发展史

Python之计算当前月份的日期范围（calendar、datetime）

Python编程之计算字符串长度

【Python打卡2019】20190420之计算BMR-异常处理

第二章 python之计算机基础

MapReduce之计算平均数的Java与Python实现

Python 数值计算 —— 向量、矩阵和多维数组

Python | Numpy：详解计算矩阵的均值和标准差

Python中的矩阵和线性代数计算

[Python人工智能] 二十二.基于大连理工情感词典的情感分析和情绪计算

Python第三方库之jieba和wordcloud的使用——计算文章词频以及生成词云

Python学习之字符串分割计算词频

Python实现文本词频统计算法及完整代码

python计算相似矩阵

python计算最小外接矩阵

用python检查矩阵的计算

python数组和矩阵

Python计算误码率，输入是0-1比特流矩阵和小数矩阵

【0基础入门Python Web笔记】四、python 之计算器的进阶之路

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)