大数据学习8 - 代码天地

大数据学习8

编程语言 2018-12-31 10:20:49 阅读次数: 0

mapreduce优点：海量数据离线处理&易开法&容易运行

mapreduce缺点：无法实现流式计算

分布式计算小案例：统计海量数据文件中的词频

流程分析：

1.首先将输入的文件拆分成多个文件快（spliting）

2.每台机器统计每个文件快中的单词次数，根据空格等正则来拆分单词（mapping）

3.每个节点将会吧相同的单词发送到特定的某台机器上，这样每个机器就会知道特定的单词的数量（shuffing）

4.汇总单词数量（reducing）

5返回结果

mapReduce流程：

扫描二维码关注公众号，回复： 4719534 查看本文章

input <k1,v1> -> map -> <k2,v2> ->combine -> <k2,v2..> -> reduce -><k3,v3>

解释：

输入的文件hadoop会按照文件中字符的偏移量来作为k1，v1就表示该偏移量后面的内容

经过mapping过程后，每个节点会得到相应字符的统计数这时k2表示单词，v2表示个数

k3，v3与k2，v2相同

下图为流程图：

mr核心概念：

blocksize与split之间的关系：

一个文件会被拆分成多个block，这是hdfs的最小存储单元

每个block会被拆分成多个split，这是mr的最小计算单元。此时的split就对应为上图的k1，v1

每个split会交给一个mapperTask来处理，也就是map过程

之后就是shuffle过程和reduce过程

mapreduce2.x架构图

猜你喜欢

转载自blog.csdn.net/qq_32182461/article/details/85447506

大数据学习8

Java大数据平台开发学习笔记（8）—— 选择排序

8年京东大数据架构师推荐的大数据开发学习路线

8种大数据算法

学习笔记:从0开始学习大数据-8.直接在Eclipse配置运行MapReduce程序

大数据学习之路8-NAMENODE元数据管理机制

大数据的基础学习：

大数据学习书籍

大数据学习

大数据学习过程

大数据学习之路

大数据学习路线

【如何学习大数据】

大数据学习资源

【大数据学习目录】

【为何学习大数据】

大数据学习地址

大数据入门学习？

大数据学习01

大数据学习体系

大数据学习随笔

大数据学习积累

大数据与深度学习

大数据学习目录

怎么学习大数据

如何学习大数据?

大数据学习知识

大数据学习与开发

大数据学习前言

大数据博客，学习

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)