hadoop--关于MapReduce - 代码天地

hadoop--关于MapReduce

编程语言 2018-05-10 03:34:04 阅读次数: 0

MapReduce任务过程被分为两个阶段：map和reduce。

每个阶段都需要以键/值作为输入和输出，程序员需要定义两个函数map()，和reduce()。

在处理天气预报整个大数据时，我们只对年份和气温这两个属性感兴趣

map函数的输出经由mapreduce框架处理后，最后被发送到reduce函数。这一过程中需要对键/值对进行排序和分组。因此reduce会收到下面的输入：

（1949，[111,78]）

（1950，[0,22,-11]）

每一年份后紧跟着一系列的温度，因此reduce需要做的就是遍历整个数据表找到最大的读数。

（1949，111）

（1950，22）

横向拓展：

这个例子介绍了针对少量输入数据是如何工作的，我们只用了本地文件系统中的文件，然后为了实现横向拓展，我们需要把数据存储在分布式文件系统中，一般为HDFS，由此允许Hadoop将MapReduce计算转移到存储有部分数据的各台机器上。

扫描二维码关注公众号，回复： 339199 查看本文章

猜你喜欢

转载自w-sl.iteye.com/blog/2308895

hadoop--关于MapReduce

Hadoop--两个简单的MapReduce程序

hadoop--初识hadoop

Hadoop--组件了解

hadoop--环境搭建

hadoop--相关图例

从零开始学习Hadoop--第2章第一个MapReduce程序

Hadoop--之RPC开发

hadoop--单表关联

hadoop--数据清洗（2）

《Hadoop权威指南》---关于MapReduce

11、hadoop--数据收集原理

Hadoop--单点故障修复

Hadoop--倒排索引过程详解

关于Hadoop的MapReduce纯技术点文章

Hadoop关于HDFS、MapReduce、Yarn的总结

Hadoop mapreduce

hadoop的MapReduce

Hadoop - MapReduce

Hadoop（MapReduce）

Hadoop—MapReduce

hadoop --- MapReduce

Hadoop--大数据分布式处理框架

分布式计算nuclear bomb hadoop--性能篇

大数据实践--hadoop--环境配置

Hadoop-- 海量文件的分布式计算处理方案

学习hadoop--第一步

Hadoop--使用JavaAPI对文件解压、压缩

Hadoop--使用JavaAPI编写wordcount的jar包

hadoop--大数据最基础、最重要的组件

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)