海量数据处理常用思想及重要数据结构 - 代码天地

海量数据处理常用思想及重要数据结构

其他 2019-02-04 11:38:03 阅读次数: 0

1、大顶堆、小顶堆

特别适合topN问题，如求海量日志中最大的100个数。既然是海量数据，那么内存中一下子无法加载所有的数据集，此时可以先读取海量数据中的100个数，建立数据集为100的小顶堆(小顶堆的对顶比所有元素都小)，然后依次往堆结构中读取数字，调整堆，使其保持小顶堆，最后得到top100的最大数。

2、hash映射进行分治，然后归并

hash映射按照数据特征把海量数据变的不海量，然后分别处理各段数据，再归并处理。例如：给定两个文件，各存放50亿个url，让你找出两个文件中共同的url，则可以根据url的特征，将两个文件分别映射到上千个小文件中，只要保证两个文件用的相同的hash映射方法，那么相同的url映射后一定在相同的小文件中，所以逐一比较各个小文件中的url，然后归并即可。

3、hash统计

以特征为key值利用hash表进行统计，比如，求一本书中26个字母出现的个数，可以以26个字母分别为key值，进行hash统计即可。

4、bloom filter

此方法存在一定的误差，但是比较高效。方法是利用多种不同的hash方法对数据集做hash运算，将对应的结果为key，值为1，然后判断一个新数在不在这个数据集中，则用相同的n中hash方法进行计算，如果全为1则认为在，任何一个不为1，则认为不在。

5、外排序

6、bitmap

7、多层划分

8、tire树

9、mapreduce

猜你喜欢

转载自www.cnblogs.com/bewolf/p/9352174.html

海量数据处理常用思想及重要数据结构

海量数据处理思想

海量数据处理

海量数据处理、

海量数据处理思想 + 一些例题

海量数据处理方法

海量数据处理分析

海量数据处理总结

海量数据处理汇总

9 海量数据处理

海量数据处理（转）

浅谈海量数据处理

海量数据处理技巧

海量数据处理实例

Mysql海量数据处理

海量数据处理：BitMap

海量数据处理思路

海量数据处理的常用思路和方法(转)

海量数据处理常用方法有哪些？

海量数据处理常用思路和方法

【大数据】海量数据处理方法

海量数据处理和数据挖掘

C++ 哈希思想应用位图布隆过滤器海量数据处理

海量数据处理 - （top K问题）

海量数据处理（2）-算法总结

海量数据处理之一：Bitmap

海量数据处理之四：堆

Kafka之海量数据处理

海量数据处理——学习资料（一）

海量数据处理专题2——Hash

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)