1、DataFrame
一个以命名列组织的散布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据构造,但DataFrame有丰硕的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改成DataFrame。spark 通过DataFrame操作大批的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、hive、关系数据库、cassandra等。
一个以命名列组织的散布式数据集。概念上相当于关系数据库中一