🔔

EI20:智能湖仓

Date
Created
Oct 19, 2022 07:08 AM
Tags

Note1

早在 2017 年,“智能湖仓”架构就已初具雏形。当时,亚马逊云科技发布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了打通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查询。 这件事情启发了“智能湖仓”架构的形成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式发布“智能湖仓”。如果从早期的技术探索开始算起,在 2021 亚马逊云科技 re:Invent 大会上发布的 Serverless 能力,代表了“智能湖仓”架构的第 8 轮技术演进。如今,“智能湖仓”基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具可以实现数据的自由流动与统一治理。
 
从"智能湖仓"架构的技术演进,看现代化数据平台的发展方向-阿里云开发者社区
在 2021 年初全年技术趋势展望中,数据湖与数据仓库的融合,成为大数据领域的趋势重点。直至年末,关于二者的讨论依然热烈,行业内的主要分歧点在于数据湖、数据仓库对存储系统访问、权限管理等方面的把控;行业内的主要共识点则是二者结合必能降低大数据分析的成本,提高易用性。 而此类争论,又反映了行业在大数据处理领域的核心诉求:如何通过数据湖、数据仓库的设计,有效满足现代化应用的数据架构要求。亚马逊云科技作为行业头部云厂商,也推出了与数据湖、数据仓库融合相关的"智能湖仓"。为什么"智能湖仓"可以更智能地集成数据湖、数据仓库和其他数据处理服务?"智能湖仓"架构备受关注意味着什么?在技术行业风向标的 2021 亚马逊云科技 re:Invent 大会上,我们看到了"智能湖仓"架构的现在和未来构想。 理解"智能湖仓"架构的现在和未来,需要先了解它的过去。早在 2017 年,"智能湖仓"架构就已初具雏形。当时,亚马逊云科技发布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了打通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查询。 这件事情启发了"智能湖仓"架构的形成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式发布"智能湖仓"。如果从早期的技术探索开始算起,在 2021 亚马逊云科技 re:Invent 大会上发布的 Serverless 能力,代表了"智能湖仓"架构的第 8 轮技术演进。如今,"智能湖仓"基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具可以实现数据的自由流动与统一治理。 具体而言,"智能湖仓"架构下,首先需要打破数据孤岛形成一个数据湖;其次,需要围绕着数据湖,在不同应用场景为用户提供相应的分析工具;另外,需要确保数据在湖、仓以及专门的服务之间能够自由移动;此外,需要确保用统一的方式去管理湖里面数据的安全性、访问控制和审计;最终,需要能够采用低成本的方法将湖、仓各自的优势有效利用起来,并利用人工智能等创新手段进行创新。 就像 Amazon Redshift 在 2012 年发布时,引导了云原生数仓的发展方向一样,"智能湖仓"架构一经发布就引发业内广泛关注,一方面是因为亚马逊云科技作为头部云厂商的行业地位,另一方面是因为此架构在技术上的创新思路能够为行业带来一些新的思考。 "智能湖仓"更强调"架构"而非"产品",更强调数据的自由流动与统一治理,以及基于湖仓的"智能创新"。如今,"智能湖仓"架构不是简单地将湖与仓打通,而是将湖、仓与专门构建的数据服务连接成为一个整体,让数据在其间无缝移动。面对向 TB 级、PB 级,甚至 EB
从"智能湖仓"架构的技术演进,看现代化数据平台的发展方向-阿里云开发者社区
 

Note2

在Gartner 2021年度数据管理领域的成熟度模型报告—Hype Cycle中,「湖仓一体」(Lakehouse)与Edge Data Management、Intercloud Data Management、Active Metadata等新兴技术一起,成为了首次进入成熟度模型的五个新军之一,备受业界关注。
notion image
notion image
notion image
notion image
从Gartner Hype Cycle 2021报告看湖仓一体的未来发展_SequoiaDB技术博客_SequoiaDB巨杉数据库
从Gartner Hype Cycle 2021报告看湖仓一体的未来发展 2022-04-12 1.前言 在Gartner 2021年度数据管理领域的成熟度模型报告-Hype Cycle中,「湖仓一体」( Lakehouse )与Edge Data Management、Intercloud Data Management、Active Metadata等新兴技术一起,成为了首次进入成熟度模型的五个新军之一,备受业界关注。 自1995年开始,Gartner开始采用技术成熟度曲线,来分析各行业的发展,针对技术创新的发展趋势进行评价和预测,即如何从启动开始,历经泡沫、低估、爬升阶段,最终进入成熟发展模式。 Hype Cycle 2021评测图表如下: 图一:Hype Cycle for Data Management 2021,成熟度曲线 曲线的坐标为"时间",表示技术将随时间发展经历的阶段。纵坐标为"预期",即受关注程度,代表市场对技术未来价值的预估。坐标点的形状,代表该技术进入成熟期的预计时间。 在Gartner模型中,可以从两个维度来量化新技术的成熟度: 功能丰富性和 主流性 。Gartner认为,新技术从诞生到最终成熟商用,一般都会经历5个阶段: 技术成熟度曲线的不同形状呈现了响应技术在发展过程中的价值预期随时间的变化情况,能够准确地反映随技术发展出现高峰的更深层根本原因和性质。 在Gartner看来,如今整体上数据管理技术已经逐步趋于成熟,其中大约有一半都处在爬升期。这些进入者中的大多数将在两年内进入稳步发展的成熟期。这意味着,技术决策者们,可以优先考虑采用这些新技术,因为相对较高的成熟度,即具有很高的业务价值和最小的技术风险。 关于数据仓库架构,Gartner认为,LDW(逻辑数据仓库)已成为最主流的数据仓库架构。这是因为它可以灵活适应许多架构变化,通过其逻辑层,将底层复杂且差异化的数据仓库环境实现统一。而作为数据仓库架构的重要组件,Data Lake、Data Hub Strategy和Lakehouse,还有较长的路要走。 (注:在成熟度曲线中,三者的定位为: Data lake- 即将走出低谷期,走向成熟;Data Hub Strategy-经过泡沫期的爆发,正走向低谷期;Lakehouse-仍处于启动阶段,是等待探索的新技术) 定义: 巨杉数据库基于「湖仓一体」的架构特性,构建数据基础设施平台,整合结构化、半结构化、非结构化数据的统一存储与管理,为面向全量数据业务提供:SQL、NoSQL、Object多种接口。 此外,通过特有的跨引擎事务能力,可以有效简化多团队开发流程中对不同引擎、不同结构的数据管理,打通ACID事务支持,提升业务开发、数据处理、运维管理能力,释放全量数据价值,提升企业数据处理的"人效"及"能效"。 重要意义: 商业影响: 在"2021年大数据前沿技术及产业论坛"中,报告《研究大数据产品融合演进之路》指出:在数字化驱动下,「湖仓一体」或将成为大数据技术发展的下一跳,而支撑这一技术架构的基础,将是如何更好地将数据湖和数据仓库的能力相结合,具备完善的数据存储及高性能的联机处理能力。 1.《Hype Cycle for Data Management, 2021》 - Gartner https://www.gartner.com/document/4004072?toggle=1 2.《2021年中国数据库行业研究报告》 - 艾瑞网 http://report.iresearch.cn/report/202105/3787.shtml 3.《What is Lakehouse》 - DataBricks https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html 4.《What is Lakehouse》 - Snowflake https://www.snowflake.com/guides/what-data-lakehouse 5.《湖仓:数据湖与数据仓库的融合》- 巨杉数据库 https://blog.sequoiadb.com/cn/detail-id-176 毫无疑问,「湖仓一体」代表了未来技术演进的方向。未来,「湖仓一体」将会更好地助 力企业降低成本、提升运营效率、丰富业务模式探索, 从而释放全量数据的价值,提升数据处理的"能效"和"人效"。 技术驱动力: 数据科学项目,往往难以在生产环境中落地投产。「湖仓一体」实现了研究探索和生产交付的统一,从而缓解了这些问题。 ...
从Gartner Hype Cycle 2021报告看湖仓一体的未来发展_SequoiaDB技术博客_SequoiaDB巨杉数据库
 

Note3:智能湖仓定义

1.《Hype Cycle for Data Management, 2021》 - Gartner https://www.gartner.com/document/4004072?toggle=1 2.《2021年中国数据库行业研究报告》 - 艾瑞网 http://report.iresearch.cn/report/202105/3787.shtml 3.《What is Lakehouse》 - DataBricks https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html 4.《What is Lakehouse》 - Snowflake https://www.snowflake.com/guides/what-data-lakehouse 5.《湖仓:数据湖与数据仓库的融合》- 巨杉数据库 https://blog.sequoiadb.com/cn/detail-id-176
 
 

Note4

Flink + Iceberg + 对象存储,构建数据湖方案
摘要:本文整理自 Dell 科技集团高级软件研发经理孙伟在 4 月 17 日 上海站 Flink Meetup 分享的《Iceberg 和对象存储构建数据湖方案》。内容包括: Tips:点击文末「 阅读原文 」即可查看更多技术干货~ 欢迎大家给 Flink 点赞送 star~ 一、数据湖和 Iceberg 简介 如上图所示,对于一个成熟的数据湖生态而言: 上图为一个典型的数据湖上的应用场景。 数据源上可能会有各种数据,不同的数据源和不同格式。比如说事物数据,日志,埋点信息,IOT 等。这些数据经过一些流然后进入计算平台,这个时候它需要一个结构化的方案,把数据组织放到一个存储平台上,然后供后端的数据应用进行实时或者定时的查询。 这样的数据库方案它需要具备哪些特征呢? 首先,可以看到数据源的类型很多,因此需要支持比较丰富的数据 Schema 的组织; 其次,它在注入的过程中要支撑实时的数据查询,所以需要 ACID 的保证,确保不会读到一些还没写完的中间状态的脏数据; 最后,例如日志这些有可能临时需要改个格式,或者加一列。类似这种情况,需要避免像传统的数仓一样,可能要把所有的数据重新提出来写一遍,重新注入到存储;而是需要一个轻量级的解决方案来达成需求。 Iceberg 数据库的定位就在于实现这样的功能,于上对接计算平台,于下对接存储平台。 对于数据结构化组织,典型的解决方式是用数据库传统的组织方式。 如上图所示,上方有命名空间,数据库表的隔离;中间有多个表,可以提供多种数据 Schema 的保存;底下会放数据,表格需要提供 ACID 的特性,也支持局部 Schema 的演进。 接下来具体看一下 Iceberg 是如何将数据组织起来的。如上图所示: 可以看到右边从数据文件开始,数据文件存放表内容数据,一般支持 Parquet、ORC、Avro 等格式;