阅读背景:

HDFS并行复制Distcp

来源:互联网 

1)Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。

2)distcp命令是以MR作业(没有R任务)的形式实现的,把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的,distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相同。2)distcp




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: