文章目录
1. MapReduce 定义
MapReduce 是一个分布式运算程序的编程框架,是基于 Hadoop 的数据分析计算核心框架。
MapReduce 处理过程分为两个阶段:Map 和 Reduce:
- Map 负责把一个任务分解成多个任务
- Reduce 负责把分解后多个任务处理的结果汇总
2. MapReduce 优缺点
2.1 优点
-
MapReduce 易于编程
它简单的实现一些借口,就可以完成一个分布式程序,这个分布式程序可以分不到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。
-
良好的扩展性
当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。
-
高容错性
MapReduce 设计的初衷就是是程序能够部署在廉价的 PC 机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全由 Hadoop 内部完成。
-
适合 PB 级以上海量数据的离线处理
可以实现上千台服务器集群并发工作,提供数据处理能力。
2.2 缺点
-
不擅长实时计算
MapReduce 无法像 Mysql 一样,在毫秒或者秒级返回结果。
-
不擅长流式计算
流式计算的输入数据是动态的,而 MapReduce 的数据数据集是静态的,不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。
-
不擅长 DAG(有向图) 计算
多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce 并不是不能做,而是使用后,每个MapReduce 作业的输出结果都会写入磁盘,会造成大量的磁盘 IO,导致性能非常的低下。
3. MapReudce 核心思想
MapReduce核心编程思想,如图所示:
-
分布式的运算程序往往需要分成至少2个阶段。
-
第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。
-
第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有 MapTask 并发实例的输出。
-
MapReduce 编程模型只能包含一个 Map阶段 和一个 Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个 MapReduce 程序,串行运行。
总结:分析 WordCount 数据流走向深入理解 MapReduce 核心思想。
4. MapReduce 进程
一个完整的 MapReduce 程序在分布式运行时有三类实例进程:
MrAppMaster
:负责整个程序的过程调度及状态协调。MapTask
:负责 Map 阶段的整个数据处理流程。ReduceTask
:负责 Reduce 阶段的整个数据处理流程。
5. 常用数据序列化类型
Java 类型 | Hadoop Writable 类型 |
---|---|
boolean | BooleanWritable |
byte | ByteWritable |
int | IntWritable |
float | FloatWritable |
long | LongWritable |
double | DoubleWritable |
String | Text |
map | MapWritable |
array | ArrayWritable |
6 .MapReduce 编程规范
用户编写的程序分成三个部分:Mapper、Reducer和Driver。
-
Mapper 阶段
- 用户定义的 Mapper 要继承自己的父类
- Mapper 的输入数据是
<K,V>
对的形式 (<K,V>
的类型可以自定义) - Mapper 中的业务逻辑写在
map()
方法中 - Mapper 的输出数据是
<K,V>
对的形式<K,V>
的类型可以自定义) map()
方法对每个<K,V>
调用一次
-
Reducer 阶段
- 用户自定义的 Reducer 要继承自己的父类
- Reducer 的输出数据类型对应 Mapper 的输出数据类型,也是
<K,V>
- Reducer 的业务逻辑写在
reduce()
方法中 - ReduceTask 进程对每一组相同的 K 的
<K,V>
组调用一次reduce()
方法
-
Driver 阶段
相当于 YARN 集群的客户端,用于提交我们整个程序到 YARN 集群,提交的是封装了 MapReduce 程序相关运行参数的 job 对象。
7. WordCount 案例操作
7.1 需求
在给定的文本文件中统计输出每个单词出现的总次数
-
输入数据
java python hadoop flink java spark hive hbase
-
期望输出数据
java 2 python 1 hadoop 1 flink 1 spark 1 hive 1 hbase 1
7.2 需求分析
按照MapReduce编程规范,分别编写Mapper,Reducer,Driver。
7.3 编写程序
-
pom.xml 添加以下依赖
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId> <version>2.8.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.2</version> </dependency> </dependencies> <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> <plugin> <artifactId>maven-assembly-plugin </artifactId> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> <archive> <manifest> <mainClass>com.word.driver.WordcountDriver</mainClass> </manifest> </archive> </configuration> <executions> <execution> <id>make-assembly</id> <phase>package</phase> <goals> <goal>single</goal> </goals> </execution> </executions> </plugin> </plugins> </build>
-
在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入
log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
-
编写 Mapper 类
package com.wordcount.mapper; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ Text k = new Text(); IntWritable v = new IntWritable(1); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 1 获取一行 String line = value.toString(); // 2 切割 String[] words = line.split(" "); // 3 输出 for (String word : words) { k.set(word); context.write(k, v); } } }
-
编写 Reducer 类
package com.word.reducer; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{ int sum; IntWritable v = new IntWritable(); @Override protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException { // 1 累加求和 sum = 0; for (IntWritable count : values) { sum += count.get(); } // 2 输出 v.set(sum); context.write(key,v); } }
-
编写 Driver 驱动类
package com.word.driver; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordcountDriver { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { // 1 获取配置信息以及封装任务 Configuration configuration = new Configuration(); Job job = Job.getInstance(configuration); // 2 设置jar加载路径 job.setJarByClass(WordcountDriver.class); // 3 设置map和reduce类 job.setMapperClass(WordcountMapper.class); job.setReducerClass(WordcountReducer.class); // 4 设置map输出 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); // 5 设置最终输出kv类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); // 6 设置输入和输出路径 FileInputFormat.setInputPaths(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); // 7 提交 boolean result = job.waitForCompletion(true); System.exit(result ? 0 : 1); } }
-
执行 WordCount 程序
[dwjf321@hadoop102 software]$ hadoop jar wc.jar com.word.driver.WordcountDriver /user/atguigu/input /user/atguigu/output
注意:
wc.jar com.word.driver.WordcountDriver
要和自己工程的全类名一致