海量数据处理思路

其他 2019-05-07 14:29:04 阅读次数: 0

版权声明： https://blog.csdn.net/qq_41880190/article/details/89404577

海量数据处理思路

1. 计算容量

在解决问题之前，要先计算一下海量数据需要占多大的容量。常见的单位换算如下：

1 byte = 8 bit
1 KB = 210 byte = 1024 byte ≈ 103 byte
1 MB = 220 byte ≈ 10 6 byte
1 GB = 230 byte ≈ 10 9 byte
1 亿 = 108

1 个整数占 4 byte，1 亿个整数占 4*108 byte ≈ 400 MB。

2. 拆分

可以将海量数据拆分到多台机器上和拆分到多个文件上：

如果数据量很大，无法放在一台机器上，就将数据拆分到多台机器上。这种方式可以让多台机器一起合作，从而使得问题的求解更加快速。但是也会导致系统更加复杂，而且需要考虑系统故障等问题；
如果在程序运行时无法直接加载一个大文件到内存中，就将大文件拆分成小文件，分别对每个小文件进行求解。

有以下策略进行拆分：

按出现的顺序拆分：当有新数据到达时，先放进当前机器，填满之后再将数据放到新增的机器上。这种方法的优点是充分利用系统的资源，因为每台机器都会尽可能被填满。缺点是需要一个查找表来保存数据到机器的映射，查找表可能会非常复杂并且非常大。

按散列值拆分：选取数据的主键 key，然后通过哈希取模 hash(key)%N 得到该数据应该拆分到的机器编号，其中 N 是机器的数量。优点是不需要使用查找表，缺点是可能会导致一台机器存储的数据过多，甚至超出它的最大容量。

在这里插入图片描述

按数据的实际含义拆分：例如一个社交网站系统，来自同一个地区的用户更有可能成为朋友，如果让同一个地区的用户尽可能存储在同一个机器上，那么在查找一个用户的好友信息时，就可以避免到多台机器上查找，从而降低延迟。缺点同样是需要使用查找表。

在这里插入图片描述

3. 整合

拆分之后的结果还只是局部结果，需要将局部结果汇总为整体的结果。

猜你喜欢

转载自blog.csdn.net/qq_41880190/article/details/89404577

海量数据处理思路

海量数据处理

海量数据处理、

海量数据处理的常用思路和方法(转)

海量数据处理常用思路和方法

海量数据处理方法

海量数据处理总结

海量数据处理分析

海量数据处理汇总

9 海量数据处理

海量数据处理（转）

浅谈海量数据处理

海量数据处理技巧

海量数据处理实例

Mysql海量数据处理

海量数据处理：BitMap

海量数据处理思想

处理海量数据的方法与思路

【大数据】海量数据处理方法

海量数据处理和数据挖掘

海量数据处理 - （top K问题）

海量数据处理（2）-算法总结

Kafka之海量数据处理

海量数据处理——学习资料（一）

海量数据处理之三：Hash

海量数据处理算法（转）

海量数据处理专题4——堆

海量数据处理之四：堆

海量数据处理之一：Bitmap

【转】海量数据处理专题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)