阅读背景:

hive数据倾斜的解决方案

来源:互联网 

分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理,但是这套组合会导致很多重复性的工作,有些处理起来比较繁琐,例如从文件中选取特定行数的数据,按照某些字段对数据进行排序,统计某些字段出现的字数,将多个数据源的数据join在一起。Hive的出现很好的解决了以上问题,用创建表的方式定义分布式文件中数据的meta信息后,用户可以使用像在关系型数据库中经常使用的SQL语句对这些数据进行操作,实际上Hive将这些SQL语句转化为了对应的MapReduce任务。分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduc




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: