Note1
早在 2017 年,“智能湖仓”架构就已初具雏形。当时,亚马逊云科技发布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了打通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查询。
这件事情启发了“智能湖仓”架构的形成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式发布“智能湖仓”。如果从早期的技术探索开始算起,在 2021 亚马逊云科技 re:Invent 大会上发布的 Serverless 能力,代表了“智能湖仓”架构的第 8 轮技术演进。如今,“智能湖仓”基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具可以实现数据的自由流动与统一治理。
Note2
在Gartner 2021年度数据管理领域的成熟度模型报告—Hype Cycle中,「湖仓一体」(Lakehouse)与Edge Data Management、Intercloud Data Management、Active Metadata等新兴技术一起,成为了首次进入成熟度模型的五个新军之一,备受业界关注。
Note3:智能湖仓定义
1.《Hype Cycle for Data Management, 2021》 - Gartner
https://www.gartner.com/document/4004072?toggle=1
2.《2021年中国数据库行业研究报告》 - 艾瑞网
http://report.iresearch.cn/report/202105/3787.shtml
3.《What is Lakehouse》 - DataBricks
https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
4.《What is Lakehouse》 - Snowflake
https://www.snowflake.com/guides/what-data-lakehouse
5.《湖仓:数据湖与数据仓库的融合》- 巨杉数据库
https://blog.sequoiadb.com/cn/detail-id-176