RDD(Resilient Distributed Datasets)弹性散布式数据集。你不好懂得的话,可以把RDD便可以够看成是一个简略的"动态数组"(比如ArrayList),对其操作,也只须要 调用它的办法而已,和java中的ArrayList一样。但它与一般动态数组的区分在于:RDD是散布的。弹性是指的是数据主动在内存和磁盘切换, task如果失败会进行特定次数的重试。如果在某个节点产生毛病,RDD会主动在不同的节点中重试。RDD(Resilient Distributed Datasets)弹性散布式数据集。你不好懂得的