聚焦在 Twitter 上关于Apache Spark的数据, 这些是预备用于机器学习和流式处置应用的数据。 重点是如何通过火布式网络交流代码和数据,取得 串行化, 持久化 , 调度和缓存的实战经验 。 认真应用 Spark SQL, 交互性摸索构造化和半构造化数据. Spark SQL 的基本数据构造是 Spark dataframe, Spark dataframe 遭到了 Python Pandas dataframe 和R dataframe 的启示. 这是一个壮大的数据构造, 有R 或Python 背景的数据科学家非常容易懂得并爱好上它. 聚焦在 Twitter 上关于Apache Spark的数据, 这些是预备用于机器学习和流式处置