阅读背景:

spark源码分析之Checkpoint的过程

来源:互联网 

概述

checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行行图可能很庞大,task 中计算链可能会很长,这时如果 task 中途运行出错,那么 task 的整个需要重算非常耗时,因此,有必要将计算代价较大的 RDD checkpoint 一下,当下游 RDD 计算出错时,可以直接从 checkpoint 过的 RDD 那里读取数据继续算。checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: