MR学生总成绩报表以及平均成绩报表(云计算作业20180524)

课程原地址：http://hbust.shiyanbar.com/course/91079

上课老师：李歆

实验时间：20180524

地点：云桌面

实验人：郭畅

【实验目的】

1) 理解mapreduce执行原理

2) 理解map,reduce阶段

3) 熟悉map和reduce代码的编写

【实验原理】

需求描述：
对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩，如果有多门学科，则每门学科为一个文件。
要求在输出中每行有两个间隔的数据，其中，第一个代表学生的姓名，第二个代表其平均成绩。
原始数据：
zhangsan    88
lisi    99
wangwu    66
zhaoliu    77
zhangsan    78
lisi    89
wangwu    96
zhaoliu    67
zhansan    80
lisi    82
wangwu    84
zhaoliu    86
设计思路：
Map处理的是一个纯文本文件，文件中存放的数据时每一行表示一个学生的姓名和他相应一科成绩。Mapper处理的数据是由InputFormat分解过的数据集，其中 InputFormat的作用是将数据集切割成小数据集InputSplit，每一个InputSplit将由一个Mapper负责处理。此外，InputFormat中还提供了一个RecordReader的实现，并将一个InputSplit解析成`<key,value>`对提供给了map函数。InputFormat的默认值是TextInputFormat，它针对文本文件，按行将文本切割成InputSlit，并用 LineRecordReader将InputSplit解析成`<key,value>`对，key是行在文本中的位置，value是文件中的一行。Map的结果会通过partion分发到Reducer，Reducer做完Reduce操作后，将通过以格式OutputFormat输出。Mapper最终处理的结果对`<key,value>`，会送到Reducer中进行合并，合并的时候，有相同key的键/值对则送到同一个 Reducer上。Reducer是所有用户定制Reducer类地基础，它的输入是key和这个key对应的所有value的一个迭代器，同时还有 Reducer的上下文。Reduce的结果由Reducer.Context的write方法输出到文件中。

【实验环境】

本本次环境是：centos6.5 + jdk1.7.0_79 + hadoop2.4.1 + eclipse
日志文件source.txt存放在桌面名为`分布式计算MapReduce开发基础`目录下的相应章节中对应的实验名下的文件夹中找寻。
jar包在桌面名为`lib`文件夹下。
工具在/simple/soft目录下

【实验步骤】

一、项目准备阶段

1.1 在linux系统的命令终端上切换到/simple目录，执行命令：touch source.txt创建一个文件。如图1所示

图1

1.2 在simple目录下，执行命令：vim /simple/source.txt编辑该文件，并把数据的信息内容写入到该文件中，数据名称与成绩之间是一个tab，然后在simple目录可以查看到source.txt文件。如图2所示

图2

1.3 本案例因为需要用到hadoop的计算，所以在编写程序之前需要先启动yarn服务，可以在命令终端执行命令：start-all.sh 把hdfs和yarn服务启动。(查看服务启动共有6项，如果缺少请执行stop-all.sh关闭,重新启动)。如图3所示

图3

二程序编写

2.1 在eclipse中的项目列表中，右键点击，选择“new“—>”Java Project…”新建一个项目“StudentTotalScore” 。如图4所示

图4

2.2 在项目src目录下，右键点击，选择“新建”创建一个类文件名称为“TotalScoreMapper”并指定包名” com.simple.total.score” 。如图5所示

图5

2.3 在编写“TotalScoreMapper”类之前需要把hadoop相关的jar包导入，首先在项目根目录下创建一个文件夹lib并把指定位置中的包放入该文件中。如图6所示

图6

2.4 把lib下所有的jar包导入到环境变量，首先全选lib文件夹下的jar包文件，右键点击，选择`“build path”-->“add to build path”`,添加后，发现在项目下很多奶瓶图标的jar包。如图7所示

图7

2.5 让类“TotalScoreMapper”继承类Mapper同时指定需要的参数类型，根据业务逻辑修改map类的内容如下。

package com.simple.total.score;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

 

public class TotalScoreMapper extends

Mapper<LongWritable, Text, Text, IntWritable> {

@Override

protected void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

//读取一行数据

String val = value.toString();

//把读取的数据以换行作为分割符

StringTokenizer stringTokenizer = new StringTokenizer(val, "\n");

 

while (stringTokenizer.hasMoreElements()) {

StringTokenizer tmp = new StringTokenizer(

stringTokenizer.nextToken());

//对读取的一行的名称和成绩进行切分并写入到context对象中

String username = tmp.nextToken();

String score = tmp.nextToken();

context.write(new Text(username),

new IntWritable(Integer.valueOf(score)));

}

}

}

2.6 在项目src目录下指定的包名” com.simple.total.score”下右键点击，新建一个类名为“TotalScoreReducer “并继承Reducer类，然后添加该类中的代码内容如下所示。

package com.simple.total.score;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class TotalScoreReducer extends 

Reducer<Text, IntWritable, Text, IntWritable> {

@Override

protected void reduce(Text key, Iterable<IntWritable> values,Context context)

throws IOException, InterruptedException {

//获取对键值集合遍历对象

Iterator<IntWritable> iterator = values.iterator();

int sum =0;

//循环获取相同键的所有值并计算和

while(iterator.hasNext()){

int v = iterator.next().get();

sum += v;

}

context.write(key, new IntWritable(sum));

}

}

2.7 在项目src目录下指定的包名” com.simple.total.score”下右键点击，新建一个测试主类名为” TotalScoreJob”并指定main主方法。如图8所示

图8

2.8添加代码如下所示。

package com.simple.avg.score;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TotalScoreJob {

public static void main(String[] args) throws Exception{

//获取作业对象

Job job = Job.getInstance(new Configuration());

//设置主类

job.setJarByClass(TotalScoreJob.class);

//设置job参数

job.setMapperClass(TotalScoreMapper.class);

job.setReducerClass(TotalScoreReducer.class);

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(IntWritable.class);

 

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

//设置job输入输出

//FileInputFormat.addInputPath(job, new Path("file:///simple/source.txt"));

FileInputFormat.setInputPaths(job, new Path("file:///simple/source.txt"));

FileOutputFormat.setOutputPath(job, new Path("file:///simple/output"));

     	System.exit(job.waitForCompletion(true) ? 0 : 1);

}

}

2.9 按照以上的步骤，把mapper和reducer阶段以及测试代码编写完毕之后，选中测试类” AvgScoreJob “，右键点击选择`”Run as”--->”Java Application”`,查看控制台显示内容查看是否正确执行。如图9所示

图9

求平均值的代码如下：

让类“AvgScoreMapper”继承类Mapper同时指定需要的参数类型，根据业务逻辑修改map类的内容如下。

package com.simple.avg.score;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

 

public class AvgScoreMapper extends

Mapper<LongWritable, Text, Text, IntWritable> {

@Override

protected void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

//读取一行数据

String val = value.toString();

//把读取的数据以换行作为分割符

StringTokenizer stringTokenizer = new StringTokenizer(val, "\n");

 

while (stringTokenizer.hasMoreElements()) {

StringTokenizer tmp = new StringTokenizer(

stringTokenizer.nextToken());

//对读取的一行的名称和成绩进行切分并写入到context对象中

String username = tmp.nextToken();

String score = tmp.nextToken();

context.write(new Text(username),

new IntWritable(Integer.valueOf(score)));

}

}

}

在项目src目录下指定的包名” com.simple.avg.score”下右键点击，新建一个类名为“AvgScoreReducer “并继承Reducer类，然后添加该类中的代码内容如下所示。

 

package com.simple.avg.score;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class AvgScoreReducer extends 

Reducer<Text, IntWritable, Text, IntWritable> {

@Override

protected void reduce(Text key, Iterable<IntWritable> values,Context context)

throws IOException, InterruptedException {

//获取对键值集合遍历对象

Iterator<IntWritable> iterator = values.iterator();

int count = 0;

int sum =0;

//循环获取相同键的所有值并计算和

while(iterator.hasNext()){

int v = iterator.next().get();

sum += v;

count++;

}

int avg = sum/count;

context.write(key, new IntWritable(avg));

 

}

 

}

添加代码如下所示。

package com.simple.avg.score;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class AvgScoreJob {

public static void main(String[] args) throws Exception{

//获取作业对象

Job job = Job.getInstance(new Configuration());

//设置主类

job.setJarByClass(AvgScoreJob.class);

//设置job参数

job.setMapperClass(AvgScoreMapper.class);

job.setReducerClass(AvgScoreReducer.class);

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(IntWritable.class);

 

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

//设置job输入输出

//FileInputFormat.addInputPath(job, new Path("file:///simple/source.txt"));

FileInputFormat.setInputPaths(job, new Path("file:///simple/source.txt"));

FileOutputFormat.setOutputPath(job, new Path("file:///simple/output"));

     	System.exit(job.waitForCompletion(true) ? 0 : 1);

}

}