RDD简介
在集群背后,有一个非常主要的散布式数据架构,即弹性散布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对散布式内存的抽象应用,实现了以操作本地聚集的方法来操作散布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据聚集,不同的数据集格局对应不同的RDD实现。RDD必需是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作以后的成果,都可以寄存到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大批的磁盘IO操作。这对迭代运算比拟常见的机器学习算法, 交互式数据发掘来讲,效力晋升比拟大。 在集群背后,有一个非常主要的散布式数据架构,即弹性散布式数据集(Res