阅读背景:

Spark SQL和DataFrame的学习总结

来源:互联网 

1、DataFrame
一个以命名列组织的散布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据构造,但DataFrame有丰硕的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改成DataFrame。spark 通过DataFrame操作大批的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、hive、关系数据库、cassandra等。 一个以命名列组织的散布式数据集。概念上相当于关系数据库中一




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: