摘要:超大规模数据挖掘和数据分析需求的日益增长,引领着工业和学术界设计大数据计算平台新模式。MapReduce和Dryad是两种流行的平台,数据流在这两种平台上采用操作符的有向非循环图形式。迭代程序在数据挖掘、网页排名、图像分析、模型拟合等许多应用领域中自然而然地出现了,而这两种平台缺乏对迭代程序的内嵌支持。在这篇文章中会呈现HaLoop,这是一种改进的用来服务于各种应用的Hadoop MapReduce框架。HaLoop不仅在编程上支持迭代的应用,而且为了动态地提高其运行效率,采取了调度任务程序感知循环和增加各种缓存的机制。我们在真正的查询和真实的数据集上评价HaLoop。HaLoop减少了1.85倍的查询时间,而且在mapper和reducers之间shuffles的数据只有4%。:超大规模数据挖掘和数据分析需求的日益增长,引领着工业和学术界设计大数据计算平台新