一、RDD简介
RDD 全称为 Resilient Distributed Datasets,是 Spark 最根本的数据抽象,它是只读的、分区记载的聚集,支撑并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特征: 全称为 Resilient Distributed Datasets,是 S
RDD 全称为 Resilient Distributed Datasets,是 Spark 最根本的数据抽象,它是只读的、分区记载的聚集,支撑并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特征: 全称为 Resilient Distributed Datasets,是 S