🔔

LakeHouse Note3:数据湖

概念

数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化加和非结构化数据,对数据进行加工(大数据处理、实时分析、机器学习)帮助企业更好地决策。
 

湖仓一体架构图

以Iceberg数据湖技术为例
notion image
  • Iceberg支持SQL
 

开源框架

Delta Lake

Apache Iceberg

Hudi

 

数据湖优点

  1. 数据湖中的数据最接近原生的。这对于数据探索类需求,带来很大便利,可以直接得到原始数据。
  1. 数据湖统一企业内部各个业务系统数据,解决信息孤岛问题。为横跨多个系统的数据应用,提供一种可能。
  1. 数据湖提供了全局的、统一的企业级数据概览视图,这对于数据质量、数据安全..直到整体的数据治理,甚至提高到数据资产层面都大有裨益。
  1. 数据湖改变了原有工作模式,鼓励人人了解、分析数据;而不是依赖于专门的数据团队的”供给”方式,可以提升数据运营效率、改善客户互动、鼓励数据创新。
 

数据湖缺点

  1. 对数据的归集处理程度明显缺失,对于试图直接使用数据的用户来说显得有些过于“原材料”化,且数据太过冗余。应对这一问题,可通过”数据接入+数据加工+数据建模”的方式来解决。
  1. 对数据湖基础层的性能有较高要求,必须依托高性能的服务器进行数据处理过程。这主要是来自于海量数据、异构多样化数据、延迟绑定模式等带来的问题。.
  1. 数据处理技能要求高。这也主要是因为数据过于原始带来的问题。
 
 

案例

notion image