阅读背景:

spark sql 执行完毕后,落地小文件太多

来源:互联网 
执行 insert overwrite 语句,产生了200个小文件。 试过配置参数:spark.sql.shuffle.partitions=1, 但这个导致所有reduce阶段均只有一个并行度,影响了执行效率。 执行 insert overwrite 语句,产生了200个小文件。 试过配置参数:



你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: