RDD是甚么?
RDD是Spark中的抽象数据构造类型,任何数据在Spark中都被表现为RDD。从编程的角度来看,RDD可以简略看成是一个数组。和普通数组的区分是,RDD中的数据是分区存储的,这样不同分区的数据便可以够散布在不同的机器上,同时可以被并行处置。因此,Spark运用程序所做的不过是把须要处置的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到成果。本篇文章为第一部份,将介绍Spark RDD中与Map和Reduce相干的API中。 RDD是Spark中的抽象数据构造类型,任何数据在Spark中都被表现为RDD。