【面试题】海量数据处理相关 - 代码天地

【面试题】海量数据处理相关

其他 2018-08-10 01:46:12 阅读次数: 0

海量数据处理思路

针对时间，可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie/，
针对空间，无非就一个办法：大而化小：分而治之/hash映射，
处理海量数据的几种方法
- 分而治之/hash映射 + hash统计 + 堆/快速/归并排序；
- 双层桶划分；
- Bloom filter/Bitmap；
- Trie树/数据库/倒排索引；
- 外排序；
- 分布式处理之hadoop/mapreduce。
- simhash 算法；
- 布隆过滤器；

Trie 树

Trie树，即字典树，又称单词查找树或键树，是一种树形结构。
典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较，查询效率比较高。
Trie 的核心思想是空间换时间，利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
Trie 的3 个基本性质
- 根节点不包含字符，除根节点外每一个节点都只包含一个字符。
- 从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。
- 每个节点的所有子节点包含的字符都不相同。
倒排索引（(Inverted index)）是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射，常被应用于搜索引擎和关键字查询的问题中。

海量数据处理实例

1.海量日志数据，提取出某日访问百度次数最多的那个IP

算法思想：分而治之+Hash+排序
具体实现：先按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址，然后对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；可得到1024个小文件中的出现次数最多的IP，最后依据常规的排序算法得到总体上出现次数最多的IP

2.搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节，统计最热门的10个查询串，要求使用的内存不能超过1G。

算法思想：hash映射+hash统计+排序
具体实现：先对这批海量数据预处理，存入hashmap(Query，Value)，Query表示字符串，而Value表示该Query出现次数的HashTable，每次读取一个Query，如果该字串不在Table中，那么加入该字串，并且将Value值设为1；如果该字串在Table中，那么将该字串的计数加一即可，最终用Hash表完成了统计，O（n），最后进行堆/归并排序。

3.一个文本文件，大约有一万行，每行一个词，要求统计出其中出现次数最频繁的10 个词

算法思想：利用trie树
具体实现：用trie 树统计每个词出现的次数，时间复杂度是O(n  le)（le 表示单词的平均长度），然后是找出出现最频繁的前10 个词。当然，也可以用堆来实现，时间复杂度是O(n lg10)。总的时间复杂度，是O(nle)与O(nlg10)中较大的一个。

参考链接：十道面试题与十个海量数据处理方法总结

未完待续…….

猜你喜欢

转载自blog.csdn.net/baiye_xing/article/details/76855635

【面试题】海量数据处理相关

海量数据处理面试题

海量数据处理（面试题）

面试指导：海量数据处理面试题攻略

海量数据处理面试题（转）

海量数据处理之五：面试题整理

十道海量数据处理面试题

海量数据处理面试题集锦

海量数据处理面试题技巧

海量数据处理面试题整理

面试题-海量数据处理题

（转载）海量数据处理：十道面试题与十个海量数据处理方法总结

海量数据处理：十道面试题与十个海量数据处理方法总结

转载　海量数据处理：十道面试题与十个海量数据处理方法总结

海量数据处理：十道面试题与十个海量数据处理方法总结（大数据算法面试题）

大数据算法---海量数据处理面试题整理

教你如何迅速秒杀掉：99%的海量数据处理面试题

十道海量数据处理面试题与十个方法大总结

【转载】教你如何迅速秒杀掉：99%的海量数据处理面试题

【zz】十七道海量数据处理面试题与Bit-map详解

海量数据处理面试题集锦与Bit-map详解

十道海量数据处理面试题与十个方法大总结：

教你如何迅速秒杀掉 99 的海量数据处理面试题

【C++】海量数据处理面试题（位图和布隆过滤器）

【C++】位图｜布隆过滤器｜海量数据处理面试题

大数据十道经典海量数据处理面试题与十个方法大总结

京东C/C++ 十道海量数据处理面试题与十个方法大总结

十道海量数据处理面试题与十个方法大总结(转)

十道海量数据处理面试题和十个应对方法

海量数据面试题

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)