阅读背景:

大数据生态系统基础:Apache Spark(三):Java 版本编程实例(WordCount)

来源:互联网 

       这些示例简要地概述了Spark API。Spark是基于分布式数据集的概念构建的,它包含任意的Java或Python对象。您可以从外部数据创建数据集,然后对其应用并行操作。Spark API的构建块是它的RDD API。在RDD API中,有两种类型的操作:转换,它定义了基于之前的一个新的数据集,以及操作,它启动了一个任务,在集群上执行。除了Spark的RDD API之外,还提供了高级API,例如DataFrame API和机器学习API。这些高级api提供了一种简洁的方式来进行某些数据操作。在这个页面中,我们将使用RDD API以及使用高级API的示例来展示示例。       这些示例简要地概述了Spark API。Spark是基于分布式数据集的概念构建的




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: