Hive紧缩之二 小文件合并
调研背景
当Hive输入由很多个小文件组成,由于每一个小文件都会启动一个map义务,如果文件太小,以致于map义务启动和初始化的时光大于逻辑处置的时光,会造成资源糟蹋,乃至OOM。为此,当我们启动一个义务,发明输入数据量小但义务数目多时,须要注意在Map前端进行输入合并。固然,在我们向一个表写数据时,也须要注意输出文件大小。当Hive输入由很多个小文件组成,由于每一个小文件都
当Hive输入由很多个小文件组成,由于每一个小文件都会启动一个map义务,如果文件太小,以致于map义务启动和初始化的时光大于逻辑处置的时光,会造成资源糟蹋,乃至OOM。为此,当我们启动一个义务,发明输入数据量小但义务数目多时,须要注意在Map前端进行输入合并。固然,在我们向一个表写数据时,也须要注意输出文件大小。当Hive输入由很多个小文件组成,由于每一个小文件都