通过hadoop distcp进行集群间数据迁移

问题描述
我所在的部门是BI，平时业务计算有两个Hadoop集群A和B。其中一个集群A因为大部分业务线计算都在上面，最近开始经常出问题，并且计算变慢。为了进行热备，决定把A集群的计算迁到B上一份，新抽取的数据可以在A和B上各自独立运行，但是历史数据没必要从头从MySQL中再抽一遍，即使可以这么做，也很耗费时间。所以最快的方式是把A的数据copy到B上一份。

解决方案

Hadoop自带的集群间copy工具distcp

distcp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方。

格式
指定源hdfs和目的hdfs路径即可。

hadoop distcp hdfs://namenode01/user/hive/test.txt hdfs://namenode02/user/hive/test.txt

应用实例

其他准备

对于在原始集群中已经建hive表的数据，通过以下命令拿到建表语句，然后在目标集群上执行

show create table xxx

脚本实例

脚本在目的集群client端机器执行，目标hdfs路径简写，具体copy.sh脚本内容如下:

    #!/usr/bin/sh
    if [ $# -eq 0 ];then
            DT=`date -d "-1 day" +"%Y-%m-%d"`
    else
            DT=`date -d"$1" +"%Y-%m-%d"`
    fi
    mysqlTable=$2;
    table_name=function_$mysqlTable;

#按天增量拷贝，防止中间出错，并且方便按天进行数据验证
src_path=hdfs://namenode01/user/hive/warehouse/$table_name/dt=$DT
dest_path=/user/hive/warehouse/$table_name/dt=$DT

hadoop distcp  -D mapred.job.queue.name=compute_daily  $src_path $dest_path

#给目标集群表加分区
hive -e"
use mbd;
alter table $table_name add partition(dt='$DT');
"

脚本调用

sh copy.sh 2017-08-18 pay
数据验证

脚本执行之后，还要进行数据验证，对于同样的sql，按天查看不同字段的去重计数，分别在两个集群上执行，即可充分验证，目标集群copy数据的准确性。

注意：在使用该命令时最好指定带宽限制（-bandwidth），同时拷贝的最大数目（-m）。我在首次迁移数据时没有设置，一次性迁移了好几个月的数据，导致流量超标。

hadoop distcp -bandwidth 15 -m 50 -pb hdfs://10.10.10.10:8020//flume/xxx/xxx/day=2018-03-12 /flume/xxx/xxx/day=2018-03-12

通过hadoop distcp进行集群间数据迁移

猜你喜欢