在数据服务中,如何高效的处理大规模的数据,达到高吞吐、博亚app 博亚体育低延迟的效果,是架构设计的核心。
数据处理通常分为离线计算和实时计算:前者对应的是批处理,将一周、一天或者一个小时的数据批量的进行全量计算;后者对应的是流处理,在一个源源不断的数据流中,不断的处理新的数据进行增量计算。为了能够同时支撑起离线计算和实时计算,业界提出了Lambda架构来应对不断扩张的数据规模,它拥有两条独立的计算链路。
在架构的演化过程中,大家逐渐发现批处理某种意义上是存在明显边界的流处理,离线计算是特定时间段上的实时计算,增量计算若不停机也可以约等于是全量计算。因此,一个能够同时兼顾离线计算和实时计算的架构呼之欲出,它就是Kappa架构。
Lambda架构分别拥有一条独立的离线计算链路和实时计算链路,它的发展非常契合近十年来企业数据需求的变化。起初,企业的需求只是数据驱动决策,老板们想知道过去一周、一天的用户数据,比如PV、UV,转化率、留存率等等。在这个场景下,将业务数据按照每天的时间粒度存储,通过批处理的方式计算出对应的业务指标就能够满足业务的需求,因此一套支持离线计算的链路加入到了Lambda架构。但是随着市场竞争的加剧,原本一周、一天的业务指标需要达到一个小时、一分钟的时间粒度才能够满足市场运营的灵活性,所以另一条支持实时计算的链路也被加入到了Lambda架构。
Lambda架构的离线计算链路是传统的批处理计算流程,通过Sqoop、博亚app 博亚体育Kafka对业务数据进行采集、传输,然后统一存储到HDFS,通过Spark对采集到的数据做ETL和数据分析来完成业务需求。
Lambda架构的实时计算链路则是通过流处理层和在线服务层实现,通过Flink对采集到的数据做增量计算,然后在服务层合并批处理与流处理的结果,通过f(x+t) = f(x) + f(t)的公式计算出某一刻的实时结果,向下游提供数据查询服务。
Kappa架构是Lambda架构的简化,去掉Lambda架构中的离线计算链路,保留实时计算链路,就是Kappa架构。Kappa架构的核心理念是流批一体,只用维护一套实时计算链路,省去了同时维护两套计算链路的成本。这套实时计算链路的核心是Kafka+Flink,Kafka不仅可以用来做消息队列,也可以存储临时数据;Flink解决了事件乱序下计算结果的准确性,保证了Exactly Once的消息投递语义。相比Lambda架构,Kappa架构相对更简单,在计算资源需求更小的情况下提供了更好的实时性,因此也成为了业界中数据处理架构的标杆。