🔔

LakeHouse Note2:Lambda架构到Kappa架构

Lambda架构

notion image

Lambda架构缺点:

  • 资源的浪费(离线与实时重复执行)

Kappa架构

 
notion image

Kappa架构缺点:

  1. Kafka无法支持海量数据存储
  1. kafka无法支持高效的OLAP
  1. 无法复用数据血缘管理体系
  1. kafka不支持update/upsert
 
数据湖解决Kappa架构缺点!!!
 
Kappa架构可以称为真正的实时数仓,目前在业界最常用实现就是Fink+Kafa,然而基于Kafka+Flink的实时数仓方案也有几个非常明显的缺陷,所以在目前很多企业中实时数仓构建中经常使用混合架构,没有实现所有业务都采用Kappa架构中实时处理实现。Kappa架构缺陷如下: 1.Kafka无法支持海量数据存储。对于海量数据量的业务线来说,Kafka一般只能存储非常短时间的数据比如最近一周,甚至最近一天。 2.Kafka无法支特高效的OLAP查询,大多数业务都希望能在DWD\DWS层支特即席查询的,但是Kafka无法非常友好地支持这样的需求。 3.无法复用目前已经非常成熟的基于离线数仓的数据血缘、数据质量管理体系。 需要重新实现一套数据血缘、数据质量管理体系。 4.Kafka不支持update/upsert,目前Kafka仅支持append。
湖仓一体主要解决Kappa架构的痛点