阅读背景:

如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

来源:互联网 

原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成若干个Partition,这些partition可以被并行处理)。原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: