阅读背景:

Spark RDD API详解(一) Map和Reduce

来源:互联网 

RDD是甚么?

RDD是Spark中的抽象数据构造类型,任何数据在Spark中都被表现为RDD。从编程的角度来看,RDD可以简略看成是一个数组。和普通数组的区分是,RDD中的数据是分区存储的,这样不同分区的数据便可以够散布在不同的机器上,同时可以被并行处置。因此,Spark运用程序所做的不过是把须要处置的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到成果。本篇文章为第一部份,将介绍Spark RDD中与Map和Reduce相干的API中。 RDD是Spark中的抽象数据构造类型,任何数据在Spark中都被表现为RDD。




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: