阅读背景:

Spark数据传输及ShuffleClient(源码阅读五)

来源:互联网 

  我们都知道Spark的每个task运行在不同的服务器节点上,map输出的结果直接存储到map任务所在服务器的存储体系中,reduce任务有可能不在同一台机器上运行,所以需要远程将多个map任务的中间结果fetch过来。那么我们就来学习下shuffleClient。shuffleClient存在于每个exeuctor的BlockManager中,它不光是将shuffle文件上传到其他executor或者下载到本地的客户端,也提供了可以被其他exeuctor访问的shuffle服务.当有外部的(其他节点)shuffleClient时,新建ExternalShuffleClient,默认为  我们都知道Spark的每个task运行在不同的服务器节点上,map输出的结果直接存储到ma




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: