控制sort和作业提交
MapReduce过程一共发生了3次排序操作,排序操作属于MapReduce的默认行为,我们不能控制是否发生排序,但可以控制排序的规则。
IntWritable类、Text类等都是WritableComparable的实现类,WritableComparable同时继承了Writable和Comparable接口。
WritableComparable实现类可以通过排序器进行比较Hadoop默认的比较方式即调用WritableComparator的compare方法,参数为两个待比较的WritableComparable类型的实例,我们只需实现WritableComparable接口并重写compare方法即可实现自己想要的排序逻辑。
自定义比较器,排序规则为比较key对5取模后的大小:
package cn.chen.hd.mr;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
public class MyWritableComparator extends WritableComparator{
public int compareTo(WritableComparable a, WritableComparable b) {
IntWritable x = (IntWritable)a;
IntWritable y = (IntWritable)b;
return (x.get() % 5 - y.get() % 5) > 0 ? 1 : -1;
}
}
Hadoop在进行排序操作的时候,会将键值对的键传给比较器的compare方法进行比较。
Configuration类代表了作业的配置,该类会加载mapred-site.xml
、hdfs-site.xml
、core-site.xml
,而Job类代表了一个作业。如果自定义Paritioner、WritableComparator和Combiner,可以在提交作业的代码之前加上:
job.setPartitionerClass(MyPartioner.class);
job.setSortComparatorClass(MyComparator.class);
job.setCombinerClass(MyCombiner.class);
如果想改变作业的配置,可以通过conf.setXX的方法进行配置,比如Reduce任务的个数(默认为1):
job.setNumReduceTasks(2);
完成作业设置,通过waitForCompletion方法提交作业。
System.exit(job.waitForCompletion(true) ? 0 : 1);