阅读背景:

Spark学习笔记二(RDD)

来源:互联网 
!-- flowchart 箭头图标 勿删 --

从名称上来看,Resilient Distributed Datasets 弹性散布式数据集是一种数据集(但在下文中我们可以看到并不是完整如此)。每一个RDD会被主动分割成若干分区,并由Spark主动分配到集群中的各个节点上运行。RDD的特色是在内存中运行,因此速度很快。且RDD数据由Spark主动疏散到集群中运行和管理,因此对程序来讲是透明的。从名称上来




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: