Lambda架构
Lambda架构缺点:
- 资源的浪费(离线与实时重复执行)
Kappa架构
Kappa架构缺点:
- Kafka无法支持海量数据存储
- kafka无法支持高效的OLAP
- 无法复用数据血缘管理体系
- kafka不支持update/upsert
数据湖解决Kappa架构缺点!!!
Kappa架构可以称为真正的实时数仓,目前在业界最常用实现就是Fink+Kafa,然而基于Kafka+Flink的实时数仓方案也有几个非常明显的缺陷,所以在目前很多企业中实时数仓构建中经常使用混合架构,没有实现所有业务都采用Kappa架构中实时处理实现。Kappa架构缺陷如下:
1.Kafka无法支持海量数据存储。对于海量数据量的业务线来说,Kafka一般只能存储非常短时间的数据比如最近一周,甚至最近一天。
2.Kafka无法支特高效的OLAP查询,大多数业务都希望能在DWD\DWS层支特即席查询的,但是Kafka无法非常友好地支持这样的需求。
3.无法复用目前已经非常成熟的基于离线数仓的数据血缘、数据质量管理体系。
需要重新实现一套数据血缘、数据质量管理体系。
4.Kafka不支持update/upsert,目前Kafka仅支持append。
湖仓一体主要解决Kappa架构的痛点