阅读背景:

大数据Spark企业级实战版【学习笔记】----Spark R& MLBase

来源:互联网 

6. Spark R

       SparkR应该被看着R版Spark的轻量级前端,这意味着它不会拥有想Scala或Java那样广泛的API,但它还是能够在R里运行Spark任务和操作数据。Spark通过RDD类提供Spark API,并且允许用户使用R交互式方式在集群中运行任务。它的其中一项关键特性就是有能力序列化闭包,从而能依次透明地将变量副本传入需要参与运算的Spark集群。Spark R还通过内置功能的形成集成了其他R模块,这一功能会在需要某些模块参与运算时通知Spark集群加载特定的模块,但是不同于闭包,这个需要手动设置。Spark R计划集成MLlib机器学习类库,这将有益于MLlib的发展。       SparkR应该被看着R版Spark的轻量级前端,这意




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: