BookRecord6:大数据湖最佳实践
📌

BookRecord6:大数据湖最佳实践

Tags
Created
Dec 15, 2021 10:02 AM
Last Edited
Last updated December 16, 2021
Property

1. 数据湖

数据湖是一个相对较新的概念,为了帮助大家理解,我们按成熟度将其分成几个阶段,并详细阐述各个阶段之间的区别:
  • 数据水洼。基本上是一个使用大数据技术构建的单一用途或供单一项目使用的数据集市。这通常是采用大数据技术的第一步。加载到数据水洼中的数据被用于单个项目或团队。它很常见也很容易理解,使用大数据技术代替传统数据仓库的原因是为了降低成本并提供更好的性能。
  • 数据池。它是数据水洼的集合。它可能是一个没有经过良好设计的数据仓库,实际上是一个公用数据集市的集合。它也可能只是将现有数据仓库转移到新的地方。虽然它有更低的技术成本和更好的可扩展性等优点,但其构造过程中仍然需要 IT的重度参与。此外,数据池仅包含项目所需的数据,并且仅将该数据用于所需的项目。鉴于高IT 成本和有限的数据可用性,数据池并不能帮助我们真正实现数据使用的民主化,或推动业务方实现自助服务和数据驱动决策的目标。
  • 数据湖。与数据池在两个重要方面有所不同。首先,它支持自助服务,业务方可以在不依赖IT 部门的情况下找到和使用想要使用的数据集。第二,它的目标是包含业务方可能需要的数据,即使当时没有项目需要用到。
  • 数据洋。将自助服务数据和数据驱动决策扩展到了企业的所有数据,无论这些数据在何处,以及是否已被加载到了数据湖中。
notion image
notion image
 
 
 

Lambda架构

Michael Hausenblas提到的Lambda架构
  • Nathan marz 、James Warren《Big Data: Principles and best practices of scalable realtime data systems》
 
2004年Google工程师Jeffery Dean和Saniay Ghemawat发表的一篇研究论文,“Map Reduce:Simplified Data Processing on Large Clusters”
 

数据探索和可视化工具

  • Tableau
  • PowerBI
  • Qlik Sense
 
 
传统数据仓库的设计是执行少数定义的分析任务,依赖充分测试和优化ETL作业,将数据转换为统一的schema并加载到数据仓库中。
 

云上数据湖

云技术发展势不可挡。现在许多新应用都是用软件即服务(Saas)的托管模式交互。
Amazon、微软、Google正在以惊人的速度发展(Amazon 现在从云产品中获得的收益超过了电商),其他厂商也在积极尝试进入这个领域。既然云技术发展得如此之好,很自然地会想到它是否也适用于数据湖。实际上,这确实是个不错的选择。 云上数据湖有很多优势。其中之一是会有其他人负责创建和维护基础设施,因此你不必专门雇用专家。会有人帮你管理计算机基础设施,并持续更新。此外,云上数据湖还提供了不同支持级别和成本的多种选项,你可以根据需要进行选择。如果发现选择的方案不太合适,你可以在不涉及人员变动的情况下更改计划。
云的另一个最重要的优点是资源(包括计算和存储)都是按需提供的,你可以根据需要创建和使用计算能力,这被称为弹性计算。此外,云厂商还提供了多种具有不同价位和性能特点的存储,可以按需在不同类别的存储之间无缝地迁移数据。
此外,不仅数据湖中的数据存在冗余。在过去的15年中,数据集市和其他项目专用的数据库数量也在激增。典型的数据密集型项目一般首先会配置数据库服务器,然后从其他系统加载数据,再对数据做少量添加或修改,最后通过不断地加载来保持数据更新。有些企业拥有数千甚至数百万个这样的数据库。例如,我曾与一家拥有5000名员工的小银行合作过,它有13000个数据库。 运行所有这些数据库都需要成本,包括硬件和软件成本、管理成本、备份成本等。更糟糕的是,随着时间的推移,部分数据库中一开始相同的数据会不可避免地出现分歧,无论是由于人为错误、ETL 逻辑差异、作业或系统故障,还是其他原因。因此,许多公司都花很多精力在讨论为什么财务、销售和营销在相同的关键衡量指标上都会出现不同的数字,以及应该使用或信任哪个 数字(财务数据通常获胜)。 许多企业已经开始进行数据治理,试图整合那些几乎相同的数据库,消除不必要的数据库,将分散的数据库汇聚起来。企业目录是这个过程的第一步。通过捕获哪些数据位于何处、来自何处以及谁正在使用,目求可以帮助识别冗余的和未使用的数据。
 

虚拟数据湖

 

数据湖在智慧城市应用

大数据引领“智慧城市”时代。
构建智慧城市第一步要求我们将数据收集到数据湖中,优化信息以进行预测分析。
使用支持灵活模式的廉价大数据技术(MongoDB)能够轻松地从所有不同系统加载原始数据。
虽然我们仍在克服数据存储和管理的相关问题,三我们已经开始将分析和响应由被动转变为主动。
在任何行业,转型过程通常需要30-50年。