阅读背景:

sparksql的外部数据源[未写完]

来源:互联网 

1、外部数据源的背景

        一般情况下,spark的应用程序开始于加载数据,然后处理数据,结束于保存数据,那这个数据保存到哪里?可以是MySQL可以是Hive等等一些数据存储的地方。如果用户想要的是方便快速从不同的数据源(json、parquet、rdbms),经过混合处理(json join parquet),再将处理结果以特定的格式(json、csv(spark packages)、parquet)写回到指定的系统(HDFS、S3)上面去。基于这样的需求spark引入了外部数据源.        一般情况下,spark的应用程序开始于加载数据,然后




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: