网站开发 html,外贸邦官网,天元集团第一建筑公司,移动端网站设计规范【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移 1#xff09;Distcp 工具简介及参数说明2#xff09;Shell 脚本 1#xff09;Distcp 工具简介及参数说明
【Hadoop-Distcp】工具简介及参数说明
2#xff09;Shell 脚本 应用场景#xff1a; 两个实时集… 【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移 1Distcp 工具简介及参数说明2Shell 脚本 1Distcp 工具简介及参数说明
【Hadoop-Distcp】工具简介及参数说明
2Shell 脚本 应用场景 两个实时集群交互数据A 集群 向 B 集群补充数据。 主要说明 1、将表名统一放到服务器文本 hotDataTable 中按照需要将需要补充数据的表放入文本即可。 2、-i 参数跳过异常避免文件迁移过程中出现文件不存在等异常情况出现异常会中断迁移任务。 3、-skipcrccheck 参数跳过 crc 算法校验会加快数据传输速度。 4、-update 与 -delete 参数按照文件进行校验B 集群 有的会保存B 集群 没有的会按照 A 集群 进行迁移B 集群 多出的会进行删除。通常update与delete一起使用 其余说明请参考 【Hadoop-Distcp】工具简介及参数说明
kinit -kt /opt/conf/test.keytab testPRD.TEST.COM
for tablename in cat /opt/corns/hotDataTable
do
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowedtrue \
-D mapred.task.timeout60000000 \
-D mapreduce.job.name${tablename}-${sample_date} \
-Dmapred.job.queue.namequeuename \
-i \
-skipcrccheck \
-update \
-delete \
-direct \
-bandwidth60 \
-m50 \
-numListstatusThreads40 \
webhdfs://10.1.1.1:4008/user/test/hive/dw_test.db/${tablename}/sample_date${sample_date}/ \
hdfs://nameserver/warehouse/tablespace/external/hive/test.db/${tablename}/sample_date${sample_date}
done