在高层次面上,每个spark应用有一个驱动程序组成,驱动程序运行用户的主函数,在集群上执行很多并行操作。Spark提供的主要抽象是RDD,可以进行并行操作的跨节点分散的元素集。RDDs可以由Hadoop文件系统中的一个文件创建,或在驱动程序中已经存在的scala集,然后转换它。用户会要求spark在内存中保留一个RDD,允许它被高效地跨并行操作重利用。最终RDD自动从节点失败中恢复。 在高层次面上,每个spark应用有一个驱动程序组成,驱动程序运行用户的主函数,在集群上执行很多并行操
在高层次面上,每个spark应用有一个驱动程序组成,驱动程序运行用户的主函数,在集群上执行很多并行操作。Spark提供的主要抽象是RDD,可以进行并行操作的跨节点分散的元素集。RDDs可以由Hadoop文件系统中的一个文件创建,或在驱动程序中已经存在的scala集,然后转换它。用户会要求spark在内存中保留一个RDD,允许它被高效地跨并行操作重利用。最终RDD自动从节点失败中恢复。 在高层次面上,每个spark应用有一个驱动程序组成,驱动程序运行用户的主函数,在集群上执行很多并行操