聊聊搜索算法中常见的词项提取方法——TFIDF

业界资讯 2023-08-01 17:33:33 阅读次数: 0

作者：禅与计算机程序设计艺术

1.简介

随着互联网信息量的日益增长、海量数据集的出现、人们对信息检索能力要求越来越高，各类搜索引擎的功能也越来越强大。为了更好地满足用户的各种信息查找需求，搜索算法也逐渐变得复杂而多样。其中，词项提取（Term Extraction）是搜索引擎中一个重要的组成部分。
　　词项提取又称为文档表示学习（Document Representation Learning），它是将文档转换为计算机易于处理的向量或特征表示形式的过程。词项提取的主要目的是从文本中抽取出重要的词、短语或者模式作为索引关键字。通过词项提取，可以降低查询时间，提高信息检索效率；还可以加速文本分析任务，提升数据挖掘、机器学习等领域的应用性能。

2.词项提取方法

2.1 TF-IDF词频/逆文档频率模型

2.1.1 术语说明

在词项提取方法中，最常用的方法就是基于词频/逆文档频率（TF-IDF）模型。这是一种统计方法，用来评价某个词语对于一份文档的重要程度。TF-IDF模型把每一个词的权重定性考虑了进去，能够对文档中的每个词赋予一个权重，这个权重表示了一个词在一份文档中所占的重要性。

2.1.2 公式推导

（1）tf:词频/次数

tf(t,d)=count(t in d)/max{count(w in d):w is a word}
即在一篇文档d中词t出现的次数/最大词汇个数

（2ÿ

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132053408

聊聊搜索算法中常见的词项提取方法——TFIDF

搜索_常见搜索算法概述

[Python] 常见的排序与搜索算法

常见快速搜索算法图解

基于TFIDF的关键词提取算法

【算法】常见数组搜索算法

几种常见排序算法和搜索算法

聊聊Python中常见魔法方法

NLP之常见关键词提取算法运用

搜索中常见数据结构与算法探究

几种常见的车辆路径规划算法（原来A*属于启发式搜索算法）

爬虫从入门到入狱(5)——多线程爬虫与常见搜索算法

tfidf进行关键词提取

TFIDF关键词提取简介

TFIDF分词过滤,提取关键词

【NLP】关键词提取：TFIDF、TextRank

机器学习算法Python实现：tfidf 特征词提取及文本相似度分类

map中常见的方法

java中常见的方法

聊聊护网中常见钓鱼攻击思路

搜索中常见数据结构与算法探究（二）

搜索中常见数据结构与算法探究（一）

PageRank 搜索算法

禁忌搜索算法

A*搜索算法

哈希搜索算法

搜索算法详解

搜索算法

图的搜索算法

图搜索算法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)