大数据分析利器——clickhouse的简介与应用
背景介绍
公司原有的数仓技术架构是基于传统的Hadoop的数仓体系,使用任务调度,通过不同的hive的任
务调度解决不同的业务主题。传统的数仓架构胜在稳定,依托于Hadoop体系,使用的用户也较
多。但是也存在以下的缺点:
1. 实时性:实时性较低,基于T+1的数据导入限制,通常hive的整个数据从数据源
头到最后的数据应用,中间的时间跨度基本都在几个小时到一天,数据的实时
性达不到业务的需求,业务端会想要尽快的知道他想要知道的结果。
2. 便捷性:原有的数仓架构由于依赖于Hadoop体系,整个架构体系都比较重,开
发人员对于业务端不熟悉,对于全量纬度的预计算的扩展无法进行(代价太大,
耗时长,不划算)。因此,业务端想要基于某个业务主体拓展新的业务需求时,
开发往往需要从头开始设计整个工作流的调度,工作量较大。
3. 经济性:原有的体系针对于日志数据进行处理时,基于日志的流的特性,无法
给出良好的解决方案,便采用了神策加帆软的商业方案,不得不在某些业务上进
行一些必要的商业支出。
为了解决上述存在的问题,我们前期调研了很多olap的工具,最终采用了使用以
flink+clickhouse+superset 的为主要框架的开源的解决方案。
方案介绍
大数据分析利器——clickhouse的简介与应用
背景介绍
公司原有的数仓技术架构是基于传统的H