《基于 Apache Flink 的流处理》阅读笔记

发表于:2025-11-22

第一章：状态化流处理概述数据处理框架

把数据处理框架分为两类

事物型处理：企业日常运营业务中的各类应用企业资源规划（ERP），客户关系管理（CRM）还有一些基于Web的应用独立的数据处理层：也就是应用程序本身：连接外部用户或者服务，处理操作传入的数据，每次操作都会访问数据库读取或者更新状态数据存储层：事物型数据库，外部操作就会访问这个数据库这种“单点”在扩容更新会有问题，现在用微服务——解耦，接口通信，部署到不同的容器中分析型处理需要对不同类型的数据进行联合分析的时候，建一个数据仓库（专门处理分析查询），将事务性数据库中的数据拷贝到仓库中就是ETL （提取-转换-加载）对于数据仓库就需要定期整合报告或者ad-hoc query（即席查询），过程中就用到了Hadoop生态的组件，完成数据仓库和一系列操作，代替关系型数据库，用HDFS 在建立数仓和对数仓中的数据进行分析的过程就用到了流处理技术状态化处理事件流当中对于跨记录转换都需要状态，每次处理新事件的时候能够读写之前的状态 Flink用的就是内存和内嵌式数据库作为状态存储，定期备份像Kafka这种日志系统和Flink相连，部署在Flink上的流处理应用进行事件的分析处理几种流处理应用事件驱动型：通过事件触发不同的业务逻辑，进行后续的操作；类似于微服务架构的模式，不同的应用之间通过日志系统通信了，而且访问本地状态的速度要比访问数据库更快数据管道：低延时的ETL 流式分析：不用像数仓或者Hadoop那样批处理来分析数据，实时分析，还有实时SQL 运行例子事物型处理：企业日常运营业务中的

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。