阅读背景:

MapReduce中的combiner函数

来源:互联网 

集群上的可用带宽限制了MapReduce作业的数量,因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许针对map任务的输出指定一个combiner(就像mapper和reducer一样),combiner函数的输出作为reduce函数的输入。由于combiner属于优化方案,所以Hadoop无法确定要对一个指定的map任务输出记录调用多少次combiner(如果需要)。换而言之,不管调用combiner多少次,0次、1次或多次,reducer的输出结果都是一样的。集群上的可用带宽限制了MapReduce作业的数量,因此尽量避免map和reduce任务之间的数据传




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: